iv
PENENTUAN TINGKAT KEBERHASILAN MAHASISWA
TINGKAT I IPB MENGGUNAKAN INDUKSI
POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER
YUNI ARTI
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
INSTITUT PERTANIAN BOGOR
BOGOR
2009
v
PENENTUAN TINGKAT KEBERHASILAN MAHASISWA
TINGKAT I IPB MENGGUNAKAN INDUKSI
POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER
YUNI ARTI
Skripsi
Sebagai salah satu syarat untuk memperoleh gelar
Sarjana Komputer pada
Departemen Ilmu Komputer
DEPARTEMEN ILMU KOMPUTER
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN
INSTITUT PERTANIAN BOGOR
BOGOR
2009
vi ABSTRACT
YUNI ARTI. Determining First year IPB’s Student Success Level using Decision Tree and Bayesian Classifier. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI.
Tingkat Persiapan Bersama (TPB) or Collective’s Preparation Level is the term that is used to call the year bachelor degree students in IPB (Bogor Agricultural University). IPB decides these first-year students graduation from their academic result in the end of TPB first-year. The students can continue to the next education year if they complete many graduation requirements that was decided before. The success of the first year IPB’s students can be looked from their academic graduation result. One of techniques can be used to determine student success is data mining. Data mining is used to build classifier that shows the success level of the first year student of IPB. This research aimed to develop classifier to describe the level of IPB’s students success and predict the new student of IPB. This research uses two data mining method, that is decision tree and Bayesian classifier (naïve Bayes). Decision tree is used to describe the level of IPB’s students success and to get crusial factor that determine IPB’s students success in their first year. Naïve Bayes is used to predict the new student of IPB. The results this research are a probabilistic classifier naïve bayes with accuracy 57,160 % and a decision tree classifer that contains 3 classifiaction rules with accuracy 63,542%. According to the rules that we got from decision tree, the factor that influence the first year IPB student 2007/2008 is point of high school final examination.
vii
Judul : Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB Menggunakan Induksi Pohon Keputusan dan Bayesian Classifier
Nama : Yuni Arti NIM : G64050383
Menyetujui:
Pembimbing I,
Imas Sukaesih Sitanggang, S.Si., M.Kom. NIP 197501301998022001
Pembimbing II,
Endang Purnama Giri, S.Kom., M.Kom. NIP 198210102006041027
Mengetahui:
Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor
Dr. Drh. Hasim, DEA NIP 196103281986011002
viii PRAKATA
Puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB menggunakan Induksi Pohon Keputusan dan Bayesian Classifier dapat diselesaikan. Penelitian ini dilaksanakan mulai Januari 2009 sampai dengan Juni 2009, bertempat di Departemen Ilmu Komputer IPB.
Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:
1 Kepada Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing pertama dan Bapak Endang Purnama Giri, S.Kom., M.Kom. selaku pembimbing kedua atas bimbingan dan arahannya selama pengerjaan tugas akhir.
2 Kepada Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku penguji tugas akhir.
3 Kepada bapak, mama, Mbak Ayu, Detri, Irvan Harimena, serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya.
4 Kepada teman seperjuangan sekaligus sahabat, Ninon yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat.
5 Kepada sahabat-sahabat harmony Veve, Cumil, Karin, Ntie, dan Ninon atas semangat dan dukungannya.
6 Kepada Anindra, Dimas, dan Mego ilkomerz 42, serta Wiwid dari statistika 42 atas bantuannya dalam persiapan seminar dan sidang.
7 Kepada teman satu bimbingan, Lena, Prita, dan Fuad.
8 Kepada teman sekosan Perwira 46, Dewy, Yani, Inda, Uci, Mbak Ria, Mbak Deby, Diah, Gina, dan Aurora.
9 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.
Semoga karya ilmiah ini bermanfaat.
Bogor, Juni 2009
ix RIWAYAT HIDUP
Penulis dilahirkan di Bogor pada tanggal 2 Juni 1987 sebagai anak kedua dari tiga bersaudara dengan ayah bernama Tholib dan ibu bernama Sutanti. Pada tahun 2005 lulus dari Sekolah Menengah Atas (SMA) Negeri 98 Jakarta dan pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat I, Tingkat Persiapan Bersama di IPB, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama menjalani perkuliahan, penulis pernah bergabung dalam organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun 2006 sampai dengan tahun 2007 sebagai staf Kesekretariatan. Pada tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi selama dua bulan.
iv DAFTAR ISI Halaman DAFTAR TABEL ... v DAFTAR GAMBAR ... v DAFTAR LAMPIRAN ... v PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat ... 1 TINJAUAN PUSTAKA Klasifikasi ... 1 Pohon Keputusan ... 2 Bayesian Classifier ... 3
Naïve Bayes Classifier ... 3
M-estimate ... 3
Confusion Matrix ... 4
Koefisien Korelasi Peringkat Spearman ... 4
Uji Kebebasan Chi-Square ... 5
METODE PENELITIAN Data ... 5
Metode ... 6
Lingkungan Pengembangan ... 9
HASIL DAN PEMBAHASAN Integrasi dan Pembersihan Data ... 9
Seleksi Data ... 10
Transformasi Data ... 11
Penentuan Data Training dan Data Testing ... 12
Teknik Klasifikasi ... 12
Induksi Pohon Keputusan ... 12
Naïve Bayes ... 13
Perhitungan Nilai Akurasi ... 14
Evaluasi Keluaran ... 17
KESIMPULAN DAN SARAN Kesimpulan ... 18
Saran ... 18
DAFTAR PUSTAKA ... 18
v DAFTAR TABEL
Halaman
1 Confusion matrix masalah 2 kelas ... 4
2 Data yang digunakan ... 6
3 Tabel kontingensi antara jenis kelamin dan kelas target ... 11
4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin ... 11
5 Hasil uji kebebasan chi-square ... 11
6 Hasil uji Spearman... 11
7 Penentuan data untuk induksi pohon keputusan ... 12
8 Penentuan data untuk naïve Bayes ... 12
9 Aturan-aturan dari percobaan 3 ... 13
10 Banyak aturan yang dihasilkan setiap percobaan ... 13
11 Model Probabilistik Percobaan 1 ... 14
12 Confusion matrix percobaan 1 menggunakan induksi pohon keputusan ... 14
13 Confusion matrix percobaan 2 menggunakan induksi pohon keputusan ... 14
14 Confusion matrix percobaan 3 menggunakan induksi pohon keputusan ... 15
15 Confusion matrix percobaan 4 menggunakan induksi pohon keputusan ... 15
16 Confusion matrix percobaan 1 menggunakan naïve Bayes ... 15
17 Confusion matrix percobaan 2 menggunakan naïve Bayes ... 15
18 Confusion matrix percobaan 3 menggunakan naïve Bayes ... 16
19 Confusion matrix percobaan 4 menggunakan naïve Bayes ... 16
20 Hasil akurasi dari percobaan menggunakan induksi pohon keputusan ... 16
21 Hasil akurasi dari percobaan menggunakan naïve Bayes ... 17
22 Data uji tanpa label kelas untuk model terbaik induksi pohon keputusan ... 17
23 Aturan-aturan dari percobaan 1 ... 17
24 Data uji tanpa label kelas untuk model terbaik naïve Bayes ... 18
DAFTAR GAMBAR Halaman 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan ... 6
2 Diagram alur proses klasifikasi dengan metode naïve Bayes... 7
3 Cara kerja metode induksi pohon keputusan ... 7
4 Cara kerja metode naive Bayes ... 8
5 Pohon keputusan pada percobaan 3 ... 13
DAFTAR LAMPIRAN Halaman 1 Kode mayor IPB tahun akademik 2007/2008 ... 21
2 Tabel kontingensi dan perhitungan chi-square ... 22
3 Kode nilai atribut kategorik yang digunakan dalam proses klasifikasi menggunakan induksi pohon keputusan dan naïve Bayes ... 28
4 Contoh data training pada proses klasifiaksi dengan menggunakan induksi pohon keputusan ... 30
5 Model probabilistik yang diperoleh percobaan 1 ... 31
6 Confusion matrix dengan metode 10-fold cross validation menggunakan naïve Bayes ... 33
1 PENDAHULUAN
Latar Belakang
Tingkat I Program Sarjana Institut Pertanian Bogor (IPB) atau biasa disebut dengan Tingkat Persiapan Bersama IPB merupakan tingkat pertama bagi mahasiswa IPB dalam memasuki dunia perkuliahan. Pada tingkat ini, mahasiswa mengambil mata kuliah umum seperti Biologi, Matematika, Bahasa Indonesia, Bahasa Inggris, dan sebagainya sebagai bentuk persiapan bagi mahasiswa untuk menghadapi tingkat selanjutnya.
Sebagai salah satu perguruan tinggi, IPB memiliki aturan dalam menentukan kelulusan mahasiswa Program Sarjana tingkat I. IPB menentukan kelulusan ini dari hasil akademik mahasiswa pada akhir tingkat pertama. Mahasiswa yang berhasil melalui tingkat I sesuai dengan syarat kelulusan yang telah ditentukan dapat melanjutkan tingkat berikutnya.
Analisis tingkat keberhasilan mahasiswa tingkat I IPB perlu dilakukan untuk memperoleh faktor-faktor penentu keberhasilan studi mahasiswa tersebut. Selanjutnya faktor-faktor tersebut, dapat digunakan untuk memprediksi keberhasilan atau kegagalan mahasiswa yang baru masuk IPB. Dengan demikian pencegahan terjadinya kegagalan mahasiswa pada tingkat I dapat dilakukan sedini mungkin.
Dalam penelitian ini teknik data mining digunakan untuk membuat suatu model klasifikasi dari data mahasiswa tingkat I IPB. Model klasifikasi yang dibangun yaitu model yang menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB, yang kemudian dari model tersebut dapat diperoleh informasi faktor-faktor yang mempengaruhi keberhasilan atau kegagalan mahasiswa serta dapat memprediksi keberhasilan mahasiswa yang baru masuk IPB.
Tujuan
Tujuan dari penelitian ini adalah menerapkan teknik klasifikasi dalam membangun suatu model (classifier) tingkat keberhasilan mahasiswa tingkat I IPB dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier, memperoleh faktor-faktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan aturan-aturan yang berasal dari pohon keputusan tersebut, serta memprediksi keberhasilan mahasiswa baru IPB
menggunakan model terbaik yang telah dibangun oleh Bayesian classifier.
Ruang Lingkup
Ruang lingkup penelitian ini dibatasi pada penggunaan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier. Metode induksi pohon keputusan digunakan untuk memperoleh faktor-faktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan model terbaik yang memiliki akurasi tertinggi, sedangkan Bayesian
classifier digunakan untuk memprediksi
keberhasilan mahasiswa baru IPB menggunakan model terbaik yang memiliki akurasi tertinggi. Data yang digunakan adalah data mahasiswa IPB tahun akademik 2007/2008 yang berasal dari Direktorat Tingkat Persiapan Bersama (Direktorat TPB), Panitia Penerimaan Mahasiswa Baru IPB (PPMB IPB), dan Badan Pengelola Asrama (BPA).
Manfaat
Penelitian ini diharapkan dapat memberikan informasi mengenai faktor-faktor yang dapat mempengaruhi tingkat keberhasilan mahasiswa tingkat I di IPB, deskripsi tingkat keberhasilan mahasiswa, dan prediksi tingkat keberhasilan mahasiswa baru IPB. Dengan demikian, diharapkan informasi tersebut dapat dimanfaatkan oleh IPB dalam mendukung proses pengambilan keputusan terkait dengan tingkat keberhasilan pendidikan mahasiswa tingkat I. Lebih lanjut, informasi tersebut juga dapat digunakan oleh mahasiswa tingkat I untuk lebih meningkatkan prestasi akademiknya.
TINJAUAN PUSTAKA Klasifikasi
Klasifikasi termasuk ke dalam kategori
predictive data mining. Proses klasifikasi dibagi
menjadi dua fase yaitu pembelajaran dan pengujian. Pada fase pembelajaran, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006).
2 Pohon Keputusan
Pohon keputusan memiliki tiga macam
node, yaitu (Tan et al. 2006):
a node akar (root), tidak memiliki edge masuk dan memiliki nol atau lebih edge keluar.
b node internal, masing-masing tepat memiliki satu edge masuk dan dua atau lebih edge keluar.
c node daun (leaf atau terminal), masing-masing tepat memiliki satu edge masuk dan tidak memiliki edge keluar.
Pada pohon keputusan, masing-masing node daun dinyatakan sebagai label kelas. Node
non-terminal meliputi node akar dan node internal
lainnya, mengandung atribut keadaan pengujian untuk memisahkan data yang memiliki karakteristik yang berbeda. Keadaan pengujian sepanjang path merupakan bentuk hubungan aturan antecedent, sedangkan kelas label pada
node daun dinyatakan sebagai aturan
consequent (Tan et al. 2006).
Salah satu algoritme yang digunakan dalam membangun pohon keputusan, yaitu algoritme
Hunt. Algoritme ini merupakan dasar dari
banyak algoritme induksi pohon keputusan yang telah ada, seperti ID3, C4.5 dan CART. Algoritme induksi pohon keputusan (decision
tree) dinamakan TreeGrowth. Input untuk
algoritme ini terdiri atas data training E dan serangkaian atribut F. Algoritme bekerja secara rekursif memilih atribut terbaik untuk membagi satu (tahap 7) dan memperluas node daun pohon (tahap 11 dan 12) sampai keadaan berhenti ditemukan (tahap 1). Berikut ini merupakan algoritme induksi pohon keputusan (Tan et al. 2006):
TreeGrowth (E, F)
1: jika stopping_cond (E,F) = terpenuhi, maka 2: daun = createNode().
3: label.daun = Classify (E). 4: kembali pada node daun. 5: lainnya
6: akar = createNode().
7: kondisi_test.akar = find_best_split (E,F).
8: misalkan V = {v|v adalah kemungkinan hasil dari kondisi_test.akar }. 9: untuk setiap v V
10: Ev = {e| kondisi_test.akar (e)
= v dan e E}.
11: anak = TreeGrowth(Ev, F).
12: tambahkan anak sebagai turunan akar
(akar anak) sebagai v. 13: akhir dari kondisi perulangan 14: akhir dari kondisi syarat jika 15: kembali pada akar.
Penjelasan rinci algoritme di atas, yaitu (Tan et al. 2006):
1 Fungsi createNode() memperluas pohon keputusan dengan membuat node baru. Sebuah node dalam pohon keputusan memiliki sebuah kondisi tes, yang dinotasikan kondisi_test.node, atau label kelas, yang dinotasikan sebagai label.node. 2 Fungsi find_best_split() menentukan atribut
mana yang harus dipilih sebagai kondisi tes untuk pemisahan training record. Pemilihan kondisi tes tergantung pada ukuran impurity yang digunakan untuk menentukan kualitas dari pemisahan. Beberapa ukuran yang digunakan adalah entropy, Gini index, dan statistik 2.
3 Fungsi Classify() menentukan label kelas untuk diberikan ke node daun. Untuk setiap
node daun, misalkan p(i|t) menyatakan fraksi
dari training record dari kelas I yang berhubungan dengan node t. Dalam banyak kasus, node daun diberikan ke kelas yang memiliki banyaknya training record
mayoritas:
label.daun = argmax p(i|t) i
dimana operator argmax mengembalikan argumen i yang memaksimumkan pernyataan p(i|t). Selain memberikan informasi yang diperlukan untuk menentukan label kelas dari node daun, fraksi p(i|t) dapat juga digunakan untuk menduga probabilitas bahwa sebuah record yang diberikan ke node daun t adalah anggota dari kelas i.
4 Fungsi stopping_cond() digunakan untuk menghentikan proses pertumbuhan tree dengan menguji apakah semua record yang sesuai dengan node tertentu memiliki label kelas yang sama atau nilai atribut yang sama. Cara lain untuk menghentikan fungsi rekursif adalah menguji apakah banyaknya
record yang sesuai dengan node tertentu
telah berada di bawah nilai threshold minimum tertentu.
Setelah membangun pohon keputusan, tahap
tree-pruning dapat dilakukan untuk mengurangi
ukuran pohon keputusan. Pohon keputusan yang terlalu besar mudah terjadi overfitting. Dua strategi untuk menghindari terjadinya
3
prepruning (pemangkasan dilakukan sejak awal
pembentukan pohon), dan postpruning
(pemangkasan dilakukan saat pohon telah terbentuk) (Tan et al. 2006).
Salah satu algoritme induksi pohon keputusan adalah algoritme C4.5. Berikut merupakan algoritme C.45 (Quinlan 1993): 1 Pohon keputusan dibangun dari data
training (ID3 biasa).
2 Hasil pohon diubah menjadi sekumpulan aturan. Banyaknya aturan sama dengan banyaknya path yang mungkin dari akar sampai node daun.
3 Setiap aturan dipangkas dengan menghilangkan prasyarat sehingga dapat meningkatkan akurasi klasifikasi.
4 Aturan yang telah dipangkas kemudian diurutkan, dan digunakan saat mengklasifikasikan contoh pengujian yang akan datang.
Bayesian Classifier
Bayesian classifier merupakan sebuah
pendekatan untuk memodelkan peluang hubungan antara himpunan atribut dengan kelas variabel tersebut. Implementasi dari
Bayesian classifier, yaitu naïve Bayes classifier
dan Bayesian belief network. (Tan et al. 2006). Andaikan X dan Y merupakan pasangan variabel acak. Peluang bersama keduanya, P(X=x, Y=y) menunjukkan peluang bahwa variabel X akan mengambil nilai x dan variabel Y akan mengambil nilai y. Suatu peluang bersyarat merupakan peluang bahwa sebuah variabel acak mengambil nilai tertentu jika diberikan variabel acak lain yang nilainya sudah diketahui. Sebagai contoh, peluang bersyarat P(Y=y|X=x) menunjukkan peluang bahwa variabel Y akan mengambil nilai y, jika diberikan variabel X yang ditinjau memiliki nilai x. Peluang bersama dan bersyarat untuk X dan Y dapat dilihat pada formula berikut (Tan
et al. 2006):
Dari formula itu, dapat diperoleh teorema Bayes (Tan et al. 2006):
dengan
Teorema Bayes merupakan dasar statistik dalam mengkombinasikan pengetahuan sebelumnya dari suatu kelas dengan keterangan baru yang terkumpul dari data. Variabel X pada persamaan 2 menunjukkan serangkaian atribut, sedangkan variabel Y menunjukkan variabel kelas. Jika variabel kelas memiliki hubungan
non-deterministic dengan atribut-atribut, dapat
diperlakukan X dan Y sebagai variabel acak dan menangkap hubungan keduanya secara probabilistik menggunakan P(Y|X). P(Y|X) merupakan peluang bersyarat yang juga dikenal sebagai posterior probability terhadap Y, sedangkan P(Y) merupakan prior probability (Tan et al. 2006).
Naïve Bayes Classifier
Naïve Bayes classifier menduga kelas
peluang bersyarat dengan mengasumsikan atribut secara kondisi bebas, jika diberi label kelas y (Tan et al. 2006). Naïve Bayes merupakan salah satu algoritme klasifikasi yang paling efektif dan efisien. Pada masalah pembelajaran klasifikasi, suatu pembelajaran berusaha membangun classifier dari serangkaian data training yang memiliki kelas. Diasumsikan bahwa A1,A2,. . .,An merupakan n
atribut. Suatu contoh E direpresentasikan oleh sebuah vektor (a1,a2,. . .,an), dimana ai
merupakan nilai atribut Ai. Variabel C
menunjukkan variabel kelas yang memiliki nilai + (kelas positif) atau nilai – (kelas negatif). Variabel c menunjukkan nilai dari variabel C. Sebuah naïve Bayes classifier atau
naïve Bayes sederhana didefinisikan sebagai
berikut:
Karena nilai p(ai|c) dapat diduga dari data training, maka mudah untuk membangun naïve Bayes (Zhang & Su 2004).
M-estimate
Jika peluang kelas bersyarat untuk atribut adalah nol, maka keseluruhan peluang bersyarat untuk kelas akan tidak dapat dihitung. Pendekatan mengestimasi peluang kelas bersyarat menggunakan tuple pecahan mungkin terlihat kurang kuat, khususnya jika training
sample yang tersedia kecil dan jumlah atribut
besar (Tan et al. 2006). Masalah ini dapat diatasi dengan menggunakan pendekatan
4 dengan:
n = jumlah data training dimana v = vj
nc = jumlah data training dimana v = vj
dan a = ai
p = prior estimate untuk P(a, i\vj)
m = ukuran sampel ekuivalen
Cara yang digunakan untuk memilih nilai p jika informasi lain tidak ada adalah asumsi keseragaman, yaitu p = 1/k, dimana k adalah jumlah nilai atribut ai yang dapat diambil. Untuk
nilai m, jika m bernilai nol, maka m-estimate akan ekuivalen dengan nc/n. Jika n dan m
keduanya tidak nol, maka fraksi yang diamati adalah nc/n dan probabilitas prior p akan
dikombinasikan menurut bobot m. Nilai m dinamakan ukuran sampel ekuivalen karena dalam persamaan m-estimate terjadi penguatan observasi aktual n dengan adanya tambahan sampel virtual m yang terdistribusi menurut p. Nilai m bisa diberi nilai sembarang, misalnya 3, tetapi konsisten untuk semua atribut (Santosa 2007).
Confusion matrix
Evaluasi model klasifikasi didasarkan pada perhitungan data pengujian yang diprediksi secara tepat dan tidak tepat oleh model. Perhitungan ini disusun ke dalam suatu tabel yang dikenal sebagai confusion matrix. Tabel 1 menggambarkan confusion matrix untuk masalah klasifikasi biner. Setiap masukan fij
pada tabel menunjukkan sejumlah data dari kelas i yang diprediksi menjadi kelas j. Sebagai contoh, f01 menunjukkan sejumlah kelas 0 yang
diprediksi tidak tepat sebagai kelas 1. Berdasarkan masukan pada confusion matrix, total data yang diprediksi tepat oleh model adalah (f11 + f00) dan total data yang diprediksi
tidak tepat adalah (f10 + f 01) (Tan et al. 2006).
Tabel 1 Confusion matrix masalah 2 kelas Confusion matrix Kelas hasil prediksi
Kelas=1 Kelas=0 Kelas sesungguh-nya Kelas=1 f11 f10 Kelas=0 f01 f00
Berdasarkan data dalam confusion matrix dapat dihitung akurasi dari model klasifikasi yang dihasilkan menggunakan formula berikut:
Sebagian besar algoritme klasifikasi mencari model yang mencapai akurasi tinggi, atau sama halnya, rata-rata error yang rendah saat diaplikasikan pada data uji (Tan et al. 2006).
Koefisien Korelasi Peringkat Spearman Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat
Spearman. Asumsi pada korelasi ini antara lain
(Daniel 1990):
Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua ukuran yang diperoleh dari objek atau individu yang sama.
Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990):
Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X1,Y1),
(X2,Y2), …, (Xn,Yn).
Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(Xi) dan R(Xi) = 1
jika Xi nilai pengamatan terkecil dari X.
Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Yi) dan R(Yi) = 1
jika Yi nilai pengamatan terkecil dari Y.
Jika ada nilai yang sama (ties) diantara X dan Y, digunakan peringkat rata-rata. Jika data bukan numerik, maka harus mampu diperingkatkan.
Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Daniel 1990):
Ho: X dan Y bebas
H1: X dan Y berhubungan langsung atau kebalikan
Statistik uji yang digunakan adalah statistik rsyang dirumuskan dengan (Daniel 1990):
dengan:
di = jumlah kuadrat beda antara
peringkat record X ke-i dengan peringkat record Y ke-i
5 R(Xi) = peringkat record ke-i pada
atribut X
R(Yi) = peringkat record ke-i pada
atribut Y
n = banyaknya record
rs = koefisien korelasi, dengan
-1 ≤ rs ≤ 1
Kaidah keputusan yang digunakan yaitu, jika rs > nilai kritis koefisien korelasi spearman
untuk n dan α(2) atau rs < nilai kritis ini, maka
tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai α menunjukkan taraf nyata yang digunakan. Nilai kritis ini diperoleh dari tabel koefisien korelasi peringkat Spearman.
Jika terdapat nilai yang sama pada pengamatan (ties), maka digunakan rumus sebagai berikut (Daniel 1990):
dengan:
tx = banyaknya pengamatan X yang sama untuk nilai tertentu (untuk peringkat tertentu)
ty = banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk peringkat tertentu)
Saat pemeriksaan angka yang sama (ties) digunakan,maka statistik uji yang digunakan adalah
Adapun perkiraan statistik uji nilai rs jika
jumlah pengamatan > 100, yaitu mengunakan statistik Z, dimana Z menyebar normal baku (Daniel 1990).
Uji Kebebasan Chi-Square
Hubungan diantara peubah kategorik yang berskala nominal dapat dianalisis dengan menggunakan uji kebebasan chi-square. Data dalam pengujian hubungan disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris × j kolom.
Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987):
Ho: Pij = Pi.Pj (saling bebas atau tidak ada
hubungan).
H1: Pij ≠ Pi.Pj (tidak saling bebas atau
terdapat hubungan).
Statistik uji yang digunakan adalah statistik
2 yang dirumuskan dengan (Freeman 1987):
dengan:
ni = total record pada baris ke-i
nj = total record pada kolom ke-j
n = total pengamatan
Pi = proporsi total record pada baris
ke-i terhadap total pengamatan Pj = proporsi total record pada kolom
ke-j terhadap total pengamatan
Eij = frekuensi harapan pada baris ke-i dan
kolom ke-j
Oij = frekuensi pengamatan pada baris ke-i
dan kolom ke-j
2
= nilai chi-square
Bentuk sebaran 2 tergantung dari derajat bebas (db), dimana derajat bebas menunjukkan banyaknya parameter (informasi) minimum yang digunakan.
Kaidah keputusan yang digunakan yaitu jika nilai statistik 2 > nilai 2(db,α) dari tabel chi-square, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai db yang digunakan yaitu (i-1) × (j-1). Nilai α menunjukkan taraf nyata yang digunakan.
METODE PENELITIAN Data
Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah Parmentier pada tahun 1994.
Parmentier menunjukkan bahwa prestasi akademik pertengahan dan akhir dari
6 mahasiswa dipengaruhi oleh tiga kumpulan
faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), ekspresi keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005).
Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan dapat dilihat pada Tabel 2. Pada Tabel 2, tabel biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa, sedangkan tabel IPK, gedung dan kegiatan asrama masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan.
Tabel 2 Data yang digunakan
Kelompok
data Atribut Sumber data
Biodata mahasiswa NIM, riwayat pendidikan orangtua, jalur masuk, riwayat kesehatan, jenis kelamin, pendapatan orangtua, jurusan, hobi, jumlah nilai UAN, dan wilayah asal SMU Direktorat TPB
IPK NIM dan IPK
TPB PPMB IPB
Gedung asrama
NIM, gedung,
dan kamar BPA
Kegiatan asrama NIM, dan kehadiran kegiatan BPA
Pengklasifikasian mahasiswa untuk menentukan tingkat keberhasilan mahasiswa tahun pertama di suatu perguruan tinggi dibagi menjadi tiga kategori, yaitu low risk (memiliki kemungkinan/resiko kecil tidak lulus), medium
risk (dibolehkan lulus berdasarkan ukuran yang
diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop out) (Superby et al. 2005). Ketiga kategori ini yang akan dijadikan label kelas.
Metode
Data mining merupakan bagian integral
dari Knowledge Discovery in Database (KDD), yang prosesnya secara keseluruhan mengubah barisan data menjadi informasi yang berguna. Proses terdiri atas rangkaian langkah transformasi dari proses preprocessing hingga
postprocessing dari hasil data mining (Tan et al. 2006). Penelitian ini mengacu pada proses
KDD tersebut.
Tahapan penelitian ini sebagaimana diilustrasikan pada Gambar 1 dan Gambar 2. Gambar 1 menunjukkan alur proses klasifikasi dengan menggunakan metode induksi pohon keputusan, sedangkan Gambar 2 alur proses klasifikasi dengan menggunakan metode naïve
Bayes. Kedua alur proses klasifikasi tersebut
melalui tahap praproses yang sama, yang membedakan hanya pada evaluasi keluaran yang diperoleh.
Preprocessing Data cleaning dan
data integration Data selection dan data transformation
Data mahasiswa
Penentuan data training dan data testing
Data set Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi
Deskripsi Mahasiswa IPB (Low Risk/Medium Risk/High Risk) berdasarkan rule-rule yang terbentuk
Data training Classifier (pohon keputusan) Data testing Classifier terbaik (pohon keputusan) Pembuatan model klasifikasi menggunakan Decision Tree Pemilihan classifier dengan nilai akurasi tertinggi
Gambar 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan.
7
Preprocessing Data cleaning dan
data integration Data selection dan data transformation Data mahasiswa Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi
Penentuan data training dan data testing
Data training Classifier (model probabilistik) Data testing Data set Pembuatan model klasifikasi menggunakan metode Bayesian (Naïve Bayes classifier)
Prediksi Keberhasilan Mahasiswa Baru IPB dengan Menggunakan
Classifier Terbaik (Low Risk/Medium Risk/High Risk)
Data mahasiswa baru (tanpa label kelas) Classifier terbaik
(model probabilistik)
Data mahasiswa baru (dengan label kelas) Pemilihan classifier dengan
nilai akurasi tertinggi
Gambar 2 Diagram alur proses klasifikasi dengan metode naïve Bayes.
Alur proses klasifikasi Gambar 1 dan Gambar 2 dapat diuraikan sebagai berikut: 1 Integrasi data, menggabungkan tabel dari
Direktorat TPB, PPMB IPB, dan BPA yaitu biodata mahasiswa, IPK, gedung, dan kegiatan asrama.
2 Pembersihan data, membuang data yang mengandung nilai yang hilang dan data yang duplikat.
3 Seleksi data, mengambil data yang relevan dengan cara memilih atribut yang berpengaruh menggunakan uji hipotesis kebebasan chi-square dan uji Spearman. 4 Transformasi data, mengubah data ke
bentuk yang dapat di-mining sesuai dengan perangkat lunak yang digunakan pada penelitian.
5 Penentuan data training dan data testing, sebelum melalui tahap data mining, ditentukan terlebih dahulu data set yang akan digunakan. Data set dibagi menjadi dua bagian, yaiu data training dan data
testing. Penentuan data set dilakukan
dengan menggunakan pembagian 70% untuk training dan 30% untuk testing serta metode 10-fold cross validation.
6 Data mining, tahap ini merupakan proses
yang penting, dimana metode diterapkan untuk menggali pola data yang ada. Metode yang digunakan yaitu induksi pohon keputusan dan naïve Bayes. Model klasifikasi dibuat oleh masing-masing metode dengan menggunakan teknik data
mining ini.
Cara kerja metode induksi pohon keputusan seperti diilustrasikan pada Gambar 3.
Data
training
Pembagian data training ke dalam
subset-subset (Dt)
Jika record pada Dt anggota kelas yang
sama yt Variabel t = node daun dengan label yt Penentuan atribut yang digunakan sebagai kondisi tes menggunakan ukuran impurity (information gain) Tidak Ya Nilai information
gain tiap atribut
Pemilihan atribut dengan nilai information gain tertinggi Atribut terpilih Kondisi berhenti tes atribut terpenuhi
Classifier (pohon keputusan) Ya Tidak Ukuran pohon keputusan besar Pemangkasan pohon Classifier (pohon keputusan sudah dipangkas) Classifier (pohon keputusan tanpa dipangkas) Tidak Ya
Gambar 3 Cara kerja metode induksi pohon keputusan. Berikut ini merupakan uraian cara kerja induksi
pohon keputusan pada Gambar 3 dalam
8 Pembagian data training ke dalam
subset-subset. Misalkan Dt adalah himpunan dari training record yang berasosiasi dengan
node t dan y = {y1, y2, ..., yc } adalah
label-label kelas.
Jika semua record dalam Dt anggota kelas yang sama yt, maka t adalah node daun dengan label yt.
Jika Dt mengandung record yang
merupakan anggota dari lebih dari dari satu kelas, sebuah kondisi tes atribut dipilih untuk mempartisi record-record ke dalam
subset-subset yang lebih kecil. Child node
dibuat untuk setiap keluaran dari kondisi
tes dan record-record dalam Dt
didistribusikan ke children berdasarkan pada keluaran dari kondisi tes. Selanjutnya, algoritme secara rekursif diaplikasikan ke setiap child node (Tan et
al. 2006).
Penentuan atribut yang digunakan sebagai kondisi tes atribut dilakukan dengan menggunakan ukuran impurity. Salah satu ukuran impurity yang digunakan yaitu
information gain. Jadi, dalam memilih
atribut untuk memecah obyek ke dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar (Santosa 2007).
Kondisi berhenti dilakukan dengan menguji apakah semua record memiliki label kelas yang sama atau nilai atribut yang sama (Tan et al. 2006).
Setelah membangun pohon keputusan, langkah tree-pruning dapat dilakukan untuk mengurangi ukuran dari pohon keputusan. Pruning dilakukan dengan memangkas cabang-cabang dari pohon awal untuk meningkatkan kemampuan generalisasai dari pohon keputusan (Tan et
al. 2006).
Cara kerja metode naïve Bayes classifier dilustrasikan pada Gambar 4. Berikut ini merupakan uraian cara kerja metode naïve
Bayes pada Gambar 4:
Setiap data contoh yang direpresentasikan dengan sebuah n-vektor fitur dimensional, X=(x1,x2,…xn), menggambarkan ukuran n
yang dibuat pada contoh dari n atribut, berturut-turut A1,A2,…,An (Han & Kamber
2006). P(X|C1) × P(C1) > P(X|C2) × P(C2) && P(X|C1) × P(C1) > P(X|C3) × P(C3) Suatu data X masuk kelas C1 (resiko rendah) Ya Tidak Penentuan data
training dan data testing
Data testing Data training
Menghitung nilai P(xk|Ci) Menghitung nilai P(Ci|X) = P(X|Ci) × P(Ci) Menghitung nilai P(Ci), i=1,2,dan 3
Untuk atribut kategorik P(xk|Ci) = sik/si
Untuk atribut kontinu menggunakan fungsi sebaran Gaussian P(xk|Ci) = g(xk, μCi.,σ Ci.) Model probabilistik Menghitung nilai P(X|Ci) dan P(Ci) per record P(X|C2) × P(C2) > P(X|C1) × P(C1) && P(X|C2) × P(C2) > P(X|C3) × P(C3) Suatu data X masuk kelas C2 (resiko sedang) Suatu data X masuk kelas C3 (resiko tinggi) Ya Tidak
Gambar 4 Cara kerja metode naïve Bayes.
Andaikan terdapat m kelas, C1,C2,…,Cn.
diberikan suatu data contoh X yang belum memiliki kelas, classifer akan memprediksi X masuk ke dalam suatu kelas dengan nilai
posterior probability tertinggi, dengan
kondisi pada X. Naïve Bayes classifier menentukan kelas data X pada kelas Ci jika
dan hanya jika
P(Ci|X) > P(Cj|X), untuk 1≤j≤m, j≠i.
Jadi, dimaksimumkan P(Ci|X). Kelas Ci
untuk P(Ci|X) dimaksimumkan oleh maximum posteriori hypothesis. Dengan
teorema Bayes:
Karena P(X) tetap untuk seluruh kelas, maka hanya nilai P(X|Ci) P(Ci) yang perlu
dimaksimumkan. Jika kelas prior
probability tidak diketahui, maka
umumnya diasumsikan bahwa prior
probability kelas-kelas tersebut
kemungkinan memiliki nilai yang sama, P(C1) = P(C2) = P(C3) = . . . = P(Cm), dan
kita dapat memaksimumkan hanya nilai P(X|Ci). Kelas prior probability mungkin
diduga dengan P(Ci) = si/s, dimana si
9 s total banyaknya data training (Han &
Kamber 2006) .
Menghitung nilai P(X|Ci)
P(X|Ci) = Πnk=1 P(xk|Ci)
Peluang P(x1|Ci), P(x1|Ci),. . ., P(xn|Ci)
dapat diduga dari data training, dimana a jika Ak atribut kategorik, maka:
P(xk|Ci) = sik/si,
di mana sik banyaknya data training pada
kelas Ci yang memiliki nilai xk untuk Ak
dan si banyaknya data training pada
kelas Ci.
b jika Ak atribut kontinu, maka atribut
secara khusus diasumsikan memiliki sebaran Gaussian, sehingga:
P(xk|Ci) = g(xk, μCi.,σ Ci.)
= 1 e-(xk-μCi)2/2σCi
2 σ Ci.
di mana g(xk, μCi.,σ Ci.) fungsi kepadatan
Gaussian (normal) untuk atribut Ak,
sedangkan μCi. dan σ Ci berturut-turut
merupakan rata-rata dan standar deviasi untuk atribut Ak data training kelas Ci
(Han & Kamber 2006).
Untuk mengklasifikasikan data X yang belum memiliki kelas, nilai P(X|Ci) P(Ci)
untuk setiap kelas Ci dievaluasi. Data X
ditentukan masuk pada kelas Ci jika dan
hanya jika P(X|Ci) P(Ci) > P(X|Cj) P(Cj),
untuk 1 ≤j≤m, j≠i. Data X yang ditentukan pada kelas Ci dimaksimumkan oleh P(X|Ci)
P(Ci) (Han & Kamber 2006).
7 Perhitungan nilai akurasi, setelah classifier telah dibangun pada kedua metode, maka dilakukan pengujian dengan menggunakan
data testing untuk mengetahui keakuratan
setiap classifer. Keakuratan classifer
dihitung dengan menggunakan confusion
matrix. Classifier terbaik dipilih
berdasarkan nilai akurasi tertinggi pada masing-masing metode.
8 Evaluasi keluaran, pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data.
Classifier yang diperoleh dari naïve Bayes
berupa model probabilistik, dimana model ini dapat memprediksi keberhasilan mahasiswa baru IPB. Evaluasi keluaran dilakukan dengan memasukkan data uji tanpa kelas pada model probabilitik terbaik hingga diperoleh kelas target yang sesuai.
Classifier yang diperoleh dari induksi pohon keputusan yaitu berupa
aturan-aturan yang diperoleh dari pohon keputusan, dimana aturan-aturan tersebut mendeskripsikan tingkat keberhasilan mahasiswa.
Lingkungan Pengembangan
Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut:
a Perangkat keras berupa komputer personal dengan spesifikasi:
Memori DDR 768 MB
Harddisk 40 GB
b Perangkat lunak
Sistem operasi Windows XP Profesional
Intel ® Pentium ® M processor 1.60GHz
QtOctave 0.7.2 Weka 3.6.0
Microsoft Access 2007 Microsoft Excel 2007
HASIL DAN PEMBAHASAN Data yang digunakan terdiri atas empat kelompok data (tabel) dan keempatnya disimpan dalam format yang berbeda, yaitu biodata mahasiswa dalam format spreadsheet Excel, IPK mahasiswa dalam format
spreadsheet Excel, gedung asrama dalam
format Ms. Word, dan kegiatan asrama dalam format DBMS Ms. Access.
Sebelum melalui tahap praproses, pada tabel IPK ditambahkan atribut jurusan dan label kelas. Atribut jurusan diperoleh dengan melihat NIM mahasiswa, kemudian mencocokkannya dengan kode jurusan mayor IPB tahun akademik 2007/2008. Kode jurusan mayor IPB dapat dilihat pada Lampiran 1. Selanjutnya, penentukan label kelas dari tiap mahasiswa dilakukan dengan melihat nilai IPK, dimana jika IPK ≥ 2.76 maka label kelas resiko rendah, jika 2 ≤ nilai IPK < 2.76 maka resiko sedang, dan jika IPK < 2 maka resiko tinggi. Dengan demikian, atribut pada IPK menjadi ada 6, yaitu NIM, nama, status kelanjutan studi, IPK, jurusan, dan kelas target.
Integrasi dan Pembersihan Data
Setelah dilakukan penambahan atribut jurusan dan label kelas pada tabel IPK, format penyimpanan biodata dan IPK mahasiswa masing-masing diubah terlebih dahulu, dari
10 format Ms. Excel menjadi format Ms. Access.
Hal ini dilakukan untuk memudahkan dalam tahap praproses berikutnya. Data yang digabungkan pertama kali yaitu biodata mahasiswa dan IPK mahasiswa. Biodata mahasiswa memiliki 3010 record dengan atribut sebanyak 64 sedangkan IPK mahasiwa terdiri dari 2989 record dan 6 atribut. Penggabungan data IPK dan biodata mahasiswa dilakukan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut, dan hasilnya ada sebanyak 2775
record dengan 70 atribut.
Selanjutnya dilakukan pemilihan atribut pada hasil gabungan data IPK dan biodata mahasiswa. Dari 70 atribut, dipilih sebanyak 13 atribut, yaitu nama, nim, jurusan, kelas target, jalur masuk, jenis kelamin, pendapatan, pendidikan, alamat, nama SMA, jumlah NEM, minat, dan sakit.
Penggabungan selanjutnya dilakukan antara data gedung asrama dan data hasil gabungan IPK dan biodata. Data gedung asrama terdiri dari 6 atribut, yaitu nama, NIM, gedung, kamar, asal SMA, dan propinsi. Sebelumnya, data gedung asrama dirapihkan dan digabungkan terlebih dahulu ke dalam format Ms. Excel, karena dokumen ini tersebar dalam beberapa file dokumen per gedung asrama (A1, A2, A3, C1, C2, C3, dan RUSUNAWA). Format data gedung kemudian diubah lagi ke dalam format Ms. Access. Setelah itu, ditambahkan atribut asal daerah dan asal teman sekamar. Atribut asal daerah dibuat dalam skala pulau dengan bantuan atribut asal SMA. Kemudian atribut asal daerah teman sekamar diperoleh dengan bantuan atribut NIM, asal daerah, serta gedung dan kamar asrama. Data gedung asrama kemudian digabung dengan data hasil gabungan data IPK dan biodata mahasiswa. Penggabungan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut.
Data terakhir yang digabungkan adalah kegiatan asrama. Data kegiatan asrama juga tersebar pada beberapa file dengan format Ms. Access. Sebelumnya data dirapihkan dan digabung dalam satu file kegiatan asrama. Data kegiatan asrama terdiri atas NIM, ID kegiatan, total kegiatan, total kehadiran, izin, sakit, dan tanpa keterangan. Atribut yang dipilih yaitu hanya NIM dan total kehadiran. Selanjutnya data kegiatan asrama digabung dengan data hasil gabungan data IPK, biodata mahasiswa, dan gedung asrama. Penggabungan berdasarkan kesamaan NIM pada kedua data.
Ketika dilakukan tahap penggabungan data, data yang tidak memiliki NIM yang sama dengan NIM pada data lain akan secara langsung tereliminasi. Record yang mengandung nilai kosong atau duplikat pun dihilangkan dari data. Atribut yang duplikat juga dihilangkan.
Hasil akhir dari proses penggabungan data IPK, biodata mahasiswa, gedung asrama, dan kegiatan asrama berupa tabel baru yang terdiri atas 1194 record dan 12 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, kehadiran kegiatan, dan kelas target.
Hasil penggabungan data IPK dan biodata mahasiswa sebanyak 2775 record yang digunakan dalam proses klasifikasi dengan menggunakan metode naïve Bayes. Pada pembuatan model klasifikasi menggunakan
naïve Bayes tidak mengikutsertakan data dari
BPA (Badan Pengelola Asrama) karena model digunakan untuk memprediksi mahasiswa baru IPB yang belum mengikuti kegiatan BPA. Berbeda dengan proses klasifikasi dengan menggunakan metode induksi pohon keputusan, pada metode ini digunakan hasil penggabungan akhir data IPK, biodata mahasiswa, gedung, dan kegiatan asrama sebanyak 1194 record yang mengikutsertakan data dari BPA.
Seleksi Data
Pemilihan atribut dilakukan terhadap 11 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, dan kehadiran kegiatan dengan menggunakan uji hipotesis statistika. Uji yang digunakan yaitu uji kebebasan chi-square dan uji korelasi peringkat
Spearman. Uji kebebasan diterapkan untuk
atribut yang bertipe kategorik nominal, yaitu untuk atribut jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, hobi, dan riwayat kesehatan. Uji Spearman diterapkan untuk atribut yang bertipe numerik, yaitu nilai UAN SMA dan kehadiran kegiatan.
Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Kelas target dalam hal ini yang menunjukkan tingkat keberhasilan mahasiswa.
11 Sebelum dilakukan uji kebebasan, dibuat 9
tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target dapat dilihat pada Tabel 3, sedangkan tabel kontingensi lainnya dapat dilihat pada Lampiran 2.
Tabel 3 Tabel kontingensi antara jenis kelamin dan kelas target
Jenis kelamin Kelas target Total Resiko rendah Resiko sedang Resiko tinggi Perempuan 512 262 54 828 Laki-laki 187 140 45 372 Total 699 402 99 1200
Selanjutnya, dihitung nilai frekuensi harapan (Eij) dan nilai chi-square ( 2) dari setiap tabel
kontingensi. Tabel 4 menunjukkan hasil perhitungan Eij dan 2 untuk atribut jenis
kelamin.
Tabel 4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin
Ei1 Ei2 Ei3 i12 i22 i32 482.31 277.38 68.31 1.83 0.85 3.00 216.69 124.62 30.69 4.07 1.90 6.67 2 18.32 2 (db, α) = 2 (2, 0.05) 5.99
Nilai α yang digunakan yaitu sebesar 0.05. Berdasarkan Tabel 2, nilai 2 > 2
(db, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh nyata dengan atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 2.
Untuk hasil uji kebebasan secara keseluruhan dapat dilihat pada Tabel 5.
Tabel 5 Hasil uji kebebasan chi-square
Atribut Hubungan dengan kelas
target
Asal daerah Berpengaruh
Asal teman sekamar Tidak berpengaruh
Hobi Berpengaruh
Jalur masuk Berpengaruh
Jenis kelamin Berpengaruh
Jurusan Berpengaruh
Pendapatan Tidak berpengaruh
Riwayat kesehatan Tidak berpengaruh
Riwayat pendidikan Tidak berpengaruh
Uji yang dilakukan selanjutnya yaitu uji
Spearman. Uji ini hanya digunakan untuk
atribut nilai UAN SMA dan kehadiran kegiatan. Hasil dari uji ini dapat dilihat pada Tabel 6.
Tabel 6 Hasil uji Spearman
Atribut Hubungan dengan kelas
target
Nilai UAN SMA Berpengaruh
Kehadiran kegiatan Berpengaruh
Transformasi Data
Pada penelitian ini, teknik data mining yang digunakan adalah induksi pohon keputusan dan naïve Bayes. Keduanya menggunakan perangkat lunak yang berbeda. Oleh karena itu, sebelum memasuki tahap data
mining, data ditransformasi terlebih dahulu ke
bentuk yang dapat di-mine, disesuaikan dengan perangkat lunak yang digunakan.
Proses klasifikasi menggunakan induksi
pohon keputusan dikerjakan pada perangkat
lunak Weka 3.6.0.
Untuk memudahkan dalam proses klasifikasi, nilai-nilai atribut pada atribut kategorik dikodekan, dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format arff WEKA dan ditambahkan inisialisasi untuk masing-masing atribut, seperti di bawah ini:
@relation keberhasilan_mahasiswa @attribute jurusan {A1, A2, A3, A4, B, C1, C2, C3, C4, C5, D, E1, E2, E3, E4, F1, F2, F3, G1, G2, G3, G4, G5, G6, G7, G8, H1, H2,H3, H4, I1, I2, I3}
@attribute asal_daerah {JA,KAL, MAL, NT, PAP, SUL, SUM, LI}
@attribute jalur_masuk {USMI, SPMB, PIN, BUD}
@attribute jenis_kelamin {L, P} @attribute nilai_UAN_SMA numeric @attribute hobi {KHS, OR, AGM, SEN, BD} @attribute kehadiran_kegiatan numeric @attribute kelas_target {resiko_rendah, resiko_sedang, resiko_tinggi} @data
Inisialiasasi @relation menunjukkan nama
data set yang digunakan. Inisialisasi @attribute
menunjukkan atribut dan nilai atribut, dimana bertipe data nominal atau numerik (real atau
12 menunjukkan inisialisasi untuk keseluruhan isi
data.
Proses klasifikasi menggunakan naïve
Bayes dikerjakan pada perangkat lunak
QtOctave 0.7.2. Data yang bertipe kategorik (asal daerah, hobi, jalur masuk, jenis kelamin, jurusan) direpresentasikan dalam bentuk kategori angka. Hal ini dilakukan untuk mempermudah proses klasifikasi dengan menggunakan QtOctave 0.7.2. Misalnya pada atribut kategorik kelas target, nilai atribut resiko rendah, resiko sedang, dan resiko tinggi direpresentasikan berturut-turut dengan angka 1, 2 dan 3. Untuk lebih jelasnya, nilai atribut kategorik dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format
file text.
Penentuan Data Training dan Data Testing Penentuan data training dan data testing menggunakan dua metode, yaitu dengan pembagian 70% training dan 30% testing, serta
10-fold cross validation. Masing-masing
metode dibuat dua percobaan, yaitu percobaan menggunakan data set dengan proporsi jumlah
record setiap kelas target sama dan dengan
proporsi jumlah record setiap kelas target berbeda. Dalam teknik pembagian data dengan menggunakan 10-fold cross validation, data dibagi menjadi (S1,…,S10) yang berbeda dengan jumlah sama besar. Setiap kali sebuah
subset digunakan sebagai test set, maka 9 buah
partisi lainnya akan dijadikan sebagai training
set.
Data set yang digunakan induksi pohon
keputusan yaitu terdiri atas 7 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, kehadiran kegiatan, hobi, dan kelas target dan 1194 record, sedangkan pada
naïve Bayes yaitu terdiri atas 6 atribut termasuk
kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, hobi, dan kelas target, dan 2775 record. Pada masing-masing data set, sebelumnya diambil sebanyak 1% untuk data uji tanpa kelas, yang akan digunakan pada model akhir yang dihasilkan. Sehingga diperoleh sebanyak 12 record untuk data uji tanpa kelas pada pohon keputusan, sedangkan pada naïve
Bayes ada sebanyak 28 record. Kemudian sisa data set yang akan digunakan untuk data training dan data testing. Penentuan data training dan data testing untuk lebih jelasnya
dapat lihat pada Tabel 7 dan Tabel 8.
Tabel 7 Penentuan data untuk induksi pohon keputusan Proporsi jumlah record setiap kelas target Percobaan Data
set Metode uji
Berbeda 1 1182 70% training dan 30% testing 2 1182 k-fold cross validation Sama 3 288 70% training dan 30% testing 4 288 k-fold cross validation
Tabel 8 Penentuan data untuk naïve Bayes
Proporsi jumlah record setiap kelas target Percobaan Data
set Metode uji
Berbeda 1 2747 70% training dan 30% testing 2 2747 k-fold cross validation Sama 3 891 70% training dan 30% testing 4 891 k-fold cross validation Teknik Klasifikasi
Pada tahap ini dilakukan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan untuk membangun model pohon keputusan dan metode naïve Bayes untuk membangun model probabilistik. Dari model pohon keputusan yang diperoleh, dibentuk aturan-aturan, dimana aturan ini yang mendeskripsikan tingkat keberhasilan mahasiswa. Model probabilistik digunakan untuk memprediksi mahasiswa baru IPB. Induksi Pohon Keputusan
Training
Fase training dilakukan untuk membangun model klasifikasi. Percobaan pembangunan model klasifikasi dengan menggunakan induksi pohon keputusan dilakukan sebanyak 4 (empat) kali berdasarkan pembagian data training dan
data testing. Sebagai contoh, akan dijelaskan
pembentukan pohon keputusan dengan menggunakan proprosi jumlah record setiap
13 kelas target sama (percobaan 3) sebanyak 288
record, dengan training sebesar 202 record dan testing sebesar 86 record. Contoh data untuk
proses training dapat dilihat pada Lampiran 4. Pembentukan aturan klasifikasi dilakukan dengan menggunakan classifier J.48 (algoritme c.45 versi Java dalam Weka) pada perangkat lunak Weka 3.6.0. Berikut ini merupakan langkah-langkah pembentukan aturan klasifikasi dengan menggunakan algoritme induksi pohon keputusan, yaitu:
1 Melakukan pembagian data training ke dalam subset-subset.
2 Menghitung nilai information gain dari tiap atribut untuk menentukan atribut yang dijadikan sebagai kondisi tes atribut.
3 Data training diekspansi berdasarkan
atribut dengan information gain tertinggi sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree. Model klasifikasi berupa pohon keputusan (percobaan 3) dapat dilihat pada Gambar 5. Dari pohon keputusan yang diperoleh, dibentuk aturan-aturan. Aturan yang terbentuk yaitu ada sebanyak 3 buah yang dapat dilihat pada Tabel 9. Keterangan nilai atribut dapat dilihat pada Lampiran 3.
Gambar 5 Pohon keputusan pada percobaan 3. Tabel 9 Aturan-aturan dari percobaan 3
No Aturan 1 IF nilai_UAN_SMA <= 22.73 THEN kelas_target = resiko_sedang 2 IF nilai_UAN_SMA > 22.73 AND nilai_UAN_SMA <= 23.47 THEN kelas_target = resiko_rendah 3 IF nilai_UAN_SMA > 22.73 AND nilai_UAN_SMA > 23.47 THEN kelas_target = resiko_tinggi
Berdasarkan hasil aturan percobaan 3 pada Tabel 9, terlihat bahwa tingkat keberhasilan
mahasiswa hanya dipengaruhi faktor nilai UAN SMA.
Testing
Fase testing dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan dari fase training. Dalam hal ini, model merupakan sekumpulan aturan-aturan yang diperoleh dari pohon keputusan. Proses testing dilakukan dengan cara memasukkan data testing pada aturan yang telah terbentuk.
Pada penelitian ini dilakukan empat kali percobaan, sehingga diperoleh empat model aturan yang berbeda. Tabel 10 menunjukkan banyaknya aturan yang dihasilkan setiap percobaan.
Tabel 10 Banyak aturan yang dihasilkan setiap percobaan Proporsi jumlah kelas target Percobaan Data set Metode uji Banyak aturan Berbeda 1 1182 70 % training dan 30% testing 6 Berbeda 2 1182 k-fold cross validation 125 Sama 3 288 70 % training dan 30% testing 3 Sama 4 288 k-fold cross validation 3 Naïve Bayes Fase Training
Fase training pada naïve Bayes akan menghasilkan model berupa model probabilistik. Sebagai contoh, akan dijelaskan pembentukan model probabilistik dengan menggunakan data pada percobaan 1. Langkah-langkah dalam pembangunan model dengan menggunakan naïve
Bayes, yaitu:
1 Menghitung nilai peluang prior setiap kelas (kelas resiko rendah, resiko sedang, dan resiko tinggi)
2 Menghitung nilai peluang bersyarat likelihood untuk seluruh atribut .
3 Menghitung nilai mean dan simpangan baku untuk atribut kontinu.
14 Berdasarkan langkah-langkah di atas,
diperoleh model klasifikasi berupa model probilistik. Model probablisitik terdiri atas peluang prior untuk masing-masing kelas, peluang likelihood untuk semua atribut, dan
mean serta simpangan baku dari atribut kontinu.
Tabel 11 menujukkan bagian model probabilistik yang diperoleh dari percobaan 1. Model probabilistik yang dihasilkan dari percobaan 1 secara lengkap dapat dilihat pada Lampiran 5.
Tabel 11 Model Probabilistik Percobaan 1
Model Probabilistik P(resiko_rendah) = 0.53718 P(resiko_sedang) = 0.35465 P(resiko_tinggi) = 0.10816 P(jenis_kelamin = 1| resiko_rendah) = 0.36921 P(jenis_kelamin = 2| resiko_rendah) = 0.63079 P(jenis_kelamin = 1| resiko_sedang) = 0.43139 P(jenis_kelamin = 2| resiko_sedang) = 0.56861 P(jenis_kelamin = 1| resiko_tinggi) = 0.53318 P(jenis_kelamin = 2| resiko_tinggi) = 0.46682
Nilai peluang P(resiko_rendah) = 0.53718 pada Tabel 11 menunjukkan bahwa peluang seorang mahasiswa baru memiliki resiko rendah tidak lulus adalah sebesar 0.53718. Nilai P(jenis_kelamin = 1| resiko_rendah) = 0.36921 menunjukkan bahwa peluang seorang mahasiswa baru berjenis kelamin laki-laki dan memiliki resiko rendah tidak lulus adalah sebesar 0.36921.
Fase Testing
Fase testing yang pada naïve Bayes dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan data training. Pada pembangunan klasifikasi dengan menggunakan
naïve Bayes juga dilakukan percobaan sebanyak
empat kali, sehingga dihasilkan empat model probabilistik.
Perhitungan Nilai Akurasi
Setelah model dibangun pada kedua metode, dan dilakukan pengujian, maka diperoleh akurasi pada masing-masing model. Akurasi pada setiap model dihitung dengan menggunakan confusion matrix. Berikut ini dijabarkan confusion matrix dari masing-masing metode. Angka 1, 2, dan 3 pada tabel berturut-turut menunjukkan kelas resiko rendah, resiko sedang, dan resiko tinggi.
Tabel 12 Confusion matrix percobaan 1 menggunakan induksi pohon keputusan
Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh- nya 1 207 0 0 207 2 119 0 0 119 3 27 2 0 29 Total 353 2 0 355
Percobaan 1 menggunakan data sebanyak 1182 record dengan proporsi pembagian data training dan data testing yang berbeda-beda menggunakan metode 70% dan 30%. Dari tabel 12, terlihat bahwa seluruh record kelas 1 sebanyak 207 record diprediksi tepat sebagai kelas 1. Selanjutnya, seluruh record kelas 2 sebanyak 119 record diprediksi tepat sebagai kelas 2. Seluruh record pada kelas 3 diprediksi tidak tepat, karena seluruh record diprediksi sebagai kelas 1 dan 2, masing-masing 27 dan 2
record. Dari hasil ini, dapat dihitung nilai
akurasi model.
Tabel 13 Confusion matrix percobaan 2 menggunakan induksi pohon keputusan
Confusion matrix Kelas hasil prediksi Total
1 2 3 Kelas sesungguh-nya 1 573 109 7 689 2 263 128 6 397 3 46 48 2 96 Total 882 285 15 1182
Percobaan 2 menggunakan data sebanyak 1182 record dengan pembagian data menggunakan metode 10-fold cross validation. Dari Tabel 13, terlihat bahwa sebanyak 573
record kelas 1 diprediksi tepat sebagai kelas 1,
sedangkan sisanya sebanyak 109 dan 7 record berturut-turut diprediksi tidak tepat sebagai kelas 2 dan 3. Selanjutnya, sebanyak 128 record kelas 2 diprediksi tepat sebagai kelas 2, sisanya sebanyak 263 dan 6 record berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 3. Hanya 2 record pada kelas 3 yang diprediksi tepat sebagai kelas 3, sisanya sebanyak 46 dan 48 berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.
15 Tabel 14 Confusion matrix percobaan 3
menggunakan induksi pohon keputusan Confusion matrix Kelas hasil prediksi Total
1 2 3 Kelas sesungguh-nya 1 3 0 25 28 2 27 2 0 29 3 0 0 29 39 Total 30 2 54 86
Percobaan 3 menggunakan data sebanyak 288 record dengan proporsi pembagian data training dan data testing yang sama menggunakan metode 70% dan 30%. Data ini diambil dari masing-masing kelas sebanyak jumlah record pada kelas 3. Dari Tabel 14, terlihat bahwa hanya 3 record kelas 1 yang diprediksi tepat sebagai kelas 1, sedangkan sisanya sebanyak 25 record seluruhnya diprediksi tidak tepat sebagai kelas 3. Selanjutnya, hanya 2 record kelas 2 yang diprediksi tepat sebagai kelas 2, sisanya sebanyak 27 record diprediksi tidak tepat sebagai kelas 1. Seluruh record kelas 3 sebanyak 29 record diprediksi tepat sebagai kelas 3. Dari hasil ini, dapat dihitung nilai akurasi model.
Tabel 15 Confusion matrix percobaan 4 menggunakan induksi pohon keputusan
Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh-nya 1 47 49 0 96 2 9 87 0 96 3 14 33 49 96 Total 70 169 49 288
Percobaan 4 menggunakan data sebanyak
288 record dengan pembagian data
menggunakan metode 10-fold cross validation. Dari Tabel 15, terlihat bahwa sebanyak 47
record kelas 1 diprediksi tepat sebagai kelas 1,
sedangkan sisanya sebanyak 49 record
diprediksi tidak tepat sebagai kelas 2. Selanjutnya, sebanyak 87 record kelas 2 diprediksi tepat sebagai kelas 2, sisanya sebanyak 9 record diprediksi tidak tepat sebagai kelas 1. Sebanyak 49 record pada kelas 3 diprediksi tepat sebagai kelas 3, sisanya 14 dan 33 record brturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.
Tabel 16 Confusion matrix percobaan 1 menggunakan naïve Bayes
Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh-nya 1 437 2 4 443 2 255 19 18 292 3 63 11 15 89 Total 755 32 37 824
Percobaan 1 naïve Bayes menggunakan data sebanyak 2747 record dengan proporsi pembagian data training dan data testing yang berbeda-beda menggunakan metode 70% dan 30%. Dari tabel 16, terlihat bahwa sebanyak 437 record kelas 1 diprediksi tepat sebagai kelas 1, sedangkan sisanya sebanyak 2 dan 4
record berturut-turut diprediksi tidak tepat
sebagai kelas 2 dan 3. Selanjutnya, sebanyak 19
record kelas 2 diprediksi tepat sebagai kelas 2,
sisanya sebanyak 255 dan 18 diprediksi tidak tepat sebagai kelas 1 dan 3. Sebanyak 15
record kelas 3 diprediksi tepat sebagai kelas 3,
sisanyan sebanyak 11 dan 15 record berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.:
Tabel 17 Confusion matrix percobaan 2 menggunakan naïve Bayes
Confusion matrix Kelas hasil prediksi Total
1 2 3 Kelas sesungguh-nya 1 125 16 7 148 2 45 29 23 97 3 6 10 14 30 Total 176 55 44 275
Percobaan 2 menggunakan data sebanyak 2747 record dengan pembagian data menggunakan metode 10-fold cross validation. Dengan menggunakan metode ini, tabel
confusion matrix yang dihasilkan 10 tabel.
Tabel 17 merupakan salah satu tabel confusion
matrix yang dihasilkan. Tabel ini memiliki
akurasi yang tinggi dibandingkan 9 tabel lainnya. Untuk tabel confusion matrix lainnya dapat dilihat pada Lampiran 6.
Pada Tabel 17 terlihat bahwa sebanyak 125