PENENTUAN TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB MENGGUNAKAN INDUKSI POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER YUNI ARTI

(1)

iv

PENENTUAN TINGKAT KEBERHASILAN MAHASISWA

TINGKAT I IPB MENGGUNAKAN INDUKSI

POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER

YUNI ARTI

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(2)

v

PENENTUAN TINGKAT KEBERHASILAN MAHASISWA

TINGKAT I IPB MENGGUNAKAN INDUKSI

POHON KEPUTUSAN DAN BAYESIAN CLASSIFIER

YUNI ARTI

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(3)

vi ABSTRACT

YUNI ARTI. Determining First year IPB’s Student Success Level using Decision Tree and Bayesian Classifier. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI.

Tingkat Persiapan Bersama (TPB) or Collective’s Preparation Level is the term that is used to call the year bachelor degree students in IPB (Bogor Agricultural University). IPB decides these first-year students graduation from their academic result in the end of TPB first-year. The students can continue to the next education year if they complete many graduation requirements that was decided before. The success of the first year IPB’s students can be looked from their academic graduation result. One of techniques can be used to determine student success is data mining. Data mining is used to build classifier that shows the success level of the first year student of IPB. This research aimed to develop classifier to describe the level of IPB’s students success and predict the new student of IPB. This research uses two data mining method, that is decision tree and Bayesian classifier (naïve Bayes). Decision tree is used to describe the level of IPB’s students success and to get crusial factor that determine IPB’s students success in their first year. Naïve Bayes is used to predict the new student of IPB. The results this research are a probabilistic classifier naïve bayes with accuracy 57,160 % and a decision tree classifer that contains 3 classifiaction rules with accuracy 63,542%. According to the rules that we got from decision tree, the factor that influence the first year IPB student 2007/2008 is point of high school final examination.

(4)

vii

Judul : Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB Menggunakan Induksi Pohon Keputusan dan Bayesian Classifier

Nama : Yuni Arti NIM : G64050383

Menyetujui:

Pembimbing I,

Imas Sukaesih Sitanggang, S.Si., M.Kom. NIP 197501301998022001

Pembimbing II,

Endang Purnama Giri, S.Kom., M.Kom. NIP 198210102006041027

Mengetahui:

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Drh. Hasim, DEA NIP 196103281986011002

(5)

viii PRAKATA

Puji dan syukur penulis panjatkan kepada Allah SWT yang telah memberikan rahmat dan karunia-Nya sehingga tugas akhir dengan judul Penentuan Tingkat Keberhasilan Mahasiswa Tingkat I IPB menggunakan Induksi Pohon Keputusan dan Bayesian Classifier dapat diselesaikan. Penelitian ini dilaksanakan mulai Januari 2009 sampai dengan Juni 2009, bertempat di Departemen Ilmu Komputer IPB.

Terima kasih penulis ucapkan kepada pihak-pihak yang telah membantu dalam penyelesaian tugas akhir ini, antara lain:

1 Kepada Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing pertama dan Bapak Endang Purnama Giri, S.Kom., M.Kom. selaku pembimbing kedua atas bimbingan dan arahannya selama pengerjaan tugas akhir.

2 Kepada Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku penguji tugas akhir.

3 Kepada bapak, mama, Mbak Ayu, Detri, Irvan Harimena, serta seluruh keluarga atas doa, dukungan, dan kasih sayangnya.

4 Kepada teman seperjuangan sekaligus sahabat, Ninon yang selama ini selalu bersama dalam mengerjakan tugas akhir ini dan saling memberikan semangat.

5 Kepada sahabat-sahabat harmony Veve, Cumil, Karin, Ntie, dan Ninon atas semangat dan dukungannya.

6 Kepada Anindra, Dimas, dan Mego ilkomerz 42, serta Wiwid dari statistika 42 atas bantuannya dalam persiapan seminar dan sidang.

7 Kepada teman satu bimbingan, Lena, Prita, dan Fuad.

8 Kepada teman sekosan Perwira 46, Dewy, Yani, Inda, Uci, Mbak Ria, Mbak Deby, Diah, Gina, dan Aurora.

9 Kepada teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2009

(6)

ix RIWAYAT HIDUP

Penulis dilahirkan di Bogor pada tanggal 2 Juni 1987 sebagai anak kedua dari tiga bersaudara dengan ayah bernama Tholib dan ibu bernama Sutanti. Pada tahun 2005 lulus dari Sekolah Menengah Atas (SMA) Negeri 98 Jakarta dan pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat I, Tingkat Persiapan Bersama di IPB, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Selama menjalani perkuliahan, penulis pernah bergabung dalam organisasi Himpunan Mahasiswa Ilmu Komputer (HIMALKOM) pada tahun 2006 sampai dengan tahun 2007 sebagai staf Kesekretariatan. Pada tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi selama dua bulan.

(7)

iv DAFTAR ISI Halaman DAFTAR TABEL ... v DAFTAR GAMBAR ... v DAFTAR LAMPIRAN ... v PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat ... 1 TINJAUAN PUSTAKA Klasifikasi ... 1 Pohon Keputusan ... 2 Bayesian Classifier ... 3

Naïve Bayes Classifier ... 3

M-estimate ... 3

Confusion Matrix ... 4

Koefisien Korelasi Peringkat Spearman ... 4

Uji Kebebasan Chi-Square ... 5

METODE PENELITIAN Data ... 5

Metode ... 6

Lingkungan Pengembangan ... 9

HASIL DAN PEMBAHASAN Integrasi dan Pembersihan Data ... 9

Seleksi Data ... 10

Transformasi Data ... 11

Penentuan Data Training dan Data Testing ... 12

Teknik Klasifikasi ... 12

Induksi Pohon Keputusan ... 12

Naïve Bayes ... 13

Perhitungan Nilai Akurasi ... 14

Evaluasi Keluaran ... 17

KESIMPULAN DAN SARAN Kesimpulan ... 18

Saran ... 18

DAFTAR PUSTAKA ... 18

(8)

v DAFTAR TABEL

Halaman

1 Confusion matrix masalah 2 kelas ... 4

2 Data yang digunakan ... 6

3 Tabel kontingensi antara jenis kelamin dan kelas target ... 11

4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin ... 11

5 Hasil uji kebebasan chi-square ... 11

6 Hasil uji Spearman... 11

7 Penentuan data untuk induksi pohon keputusan ... 12

8 Penentuan data untuk naïve Bayes ... 12

9 Aturan-aturan dari percobaan 3 ... 13

10 Banyak aturan yang dihasilkan setiap percobaan ... 13

11 Model Probabilistik Percobaan 1 ... 14

12 Confusion matrix percobaan 1 menggunakan induksi pohon keputusan ... 14

16 Confusion matrix percobaan 1 menggunakan naïve Bayes ... 15

20 Hasil akurasi dari percobaan menggunakan induksi pohon keputusan ... 16

21 Hasil akurasi dari percobaan menggunakan naïve Bayes ... 17

22 Data uji tanpa label kelas untuk model terbaik induksi pohon keputusan ... 17

23 Aturan-aturan dari percobaan 1 ... 17

24 Data uji tanpa label kelas untuk model terbaik naïve Bayes ... 18

DAFTAR GAMBAR Halaman 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan ... 6

2 Diagram alur proses klasifikasi dengan metode naïve Bayes... 7

3 Cara kerja metode induksi pohon keputusan ... 7

4 Cara kerja metode naive Bayes ... 8

5 Pohon keputusan pada percobaan 3 ... 13

DAFTAR LAMPIRAN Halaman 1 Kode mayor IPB tahun akademik 2007/2008 ... 21

2 Tabel kontingensi dan perhitungan chi-square ... 22

3 Kode nilai atribut kategorik yang digunakan dalam proses klasifikasi menggunakan induksi pohon keputusan dan naïve Bayes ... 28

4 Contoh data training pada proses klasifiaksi dengan menggunakan induksi pohon keputusan ... 30

5 Model probabilistik yang diperoleh percobaan 1 ... 31

6 Confusion matrix dengan metode 10-fold cross validation menggunakan naïve Bayes ... 33

(9)

1 PENDAHULUAN

Latar Belakang

Tingkat I Program Sarjana Institut Pertanian Bogor (IPB) atau biasa disebut dengan Tingkat Persiapan Bersama IPB merupakan tingkat pertama bagi mahasiswa IPB dalam memasuki dunia perkuliahan. Pada tingkat ini, mahasiswa mengambil mata kuliah umum seperti Biologi, Matematika, Bahasa Indonesia, Bahasa Inggris, dan sebagainya sebagai bentuk persiapan bagi mahasiswa untuk menghadapi tingkat selanjutnya.

Sebagai salah satu perguruan tinggi, IPB memiliki aturan dalam menentukan kelulusan mahasiswa Program Sarjana tingkat I. IPB menentukan kelulusan ini dari hasil akademik mahasiswa pada akhir tingkat pertama. Mahasiswa yang berhasil melalui tingkat I sesuai dengan syarat kelulusan yang telah ditentukan dapat melanjutkan tingkat berikutnya.

Analisis tingkat keberhasilan mahasiswa tingkat I IPB perlu dilakukan untuk memperoleh faktor-faktor penentu keberhasilan studi mahasiswa tersebut. Selanjutnya faktor-faktor tersebut, dapat digunakan untuk memprediksi keberhasilan atau kegagalan mahasiswa yang baru masuk IPB. Dengan demikian pencegahan terjadinya kegagalan mahasiswa pada tingkat I dapat dilakukan sedini mungkin.

Dalam penelitian ini teknik data mining digunakan untuk membuat suatu model klasifikasi dari data mahasiswa tingkat I IPB. Model klasifikasi yang dibangun yaitu model yang menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB, yang kemudian dari model tersebut dapat diperoleh informasi faktor-faktor yang mempengaruhi keberhasilan atau kegagalan mahasiswa serta dapat memprediksi keberhasilan mahasiswa yang baru masuk IPB.

Tujuan

Tujuan dari penelitian ini adalah menerapkan teknik klasifikasi dalam membangun suatu model (classifier) tingkat keberhasilan mahasiswa tingkat I IPB dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier, memperoleh faktor-faktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan aturan-aturan yang berasal dari pohon keputusan tersebut, serta memprediksi keberhasilan mahasiswa baru IPB

menggunakan model terbaik yang telah dibangun oleh Bayesian classifier.

Ruang Lingkup

Ruang lingkup penelitian ini dibatasi pada penggunaan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan dan Bayesian classifier. Metode induksi pohon keputusan digunakan untuk memperoleh faktor-faktor penentu keberhasilan mahasiswa dan mendeskripsikan tingkat keberhasilan mahasiswa berdasarkan model terbaik yang memiliki akurasi tertinggi, sedangkan Bayesian

classifier digunakan untuk memprediksi

keberhasilan mahasiswa baru IPB menggunakan model terbaik yang memiliki akurasi tertinggi. Data yang digunakan adalah data mahasiswa IPB tahun akademik 2007/2008 yang berasal dari Direktorat Tingkat Persiapan Bersama (Direktorat TPB), Panitia Penerimaan Mahasiswa Baru IPB (PPMB IPB), dan Badan Pengelola Asrama (BPA).

Manfaat

Penelitian ini diharapkan dapat memberikan informasi mengenai faktor-faktor yang dapat mempengaruhi tingkat keberhasilan mahasiswa tingkat I di IPB, deskripsi tingkat keberhasilan mahasiswa, dan prediksi tingkat keberhasilan mahasiswa baru IPB. Dengan demikian, diharapkan informasi tersebut dapat dimanfaatkan oleh IPB dalam mendukung proses pengambilan keputusan terkait dengan tingkat keberhasilan pendidikan mahasiswa tingkat I. Lebih lanjut, informasi tersebut juga dapat digunakan oleh mahasiswa tingkat I untuk lebih meningkatkan prestasi akademiknya.

TINJAUAN PUSTAKA Klasifikasi

Klasifikasi termasuk ke dalam kategori

predictive data mining. Proses klasifikasi dibagi

menjadi dua fase yaitu pembelajaran dan pengujian. Pada fase pembelajaran, sebagian data yang telah diketahui kelas datanya (training set) digunakan untuk membentuk model. Selanjutnya pada fase pengujian, model yang sudah terbentuk diuji dengan sebagian data lainnya (test set) untuk mengetahui akurasi dari model tersebut. Jika akurasinya mencukupi maka model tersebut dapat dipakai untuk memprediksi kelas data yang belum diketahui (Han & Kamber 2006).

(10)

2 Pohon Keputusan

Pohon keputusan memiliki tiga macam

node, yaitu (Tan et al. 2006):

a node akar (root), tidak memiliki edge masuk dan memiliki nol atau lebih edge keluar.

b node internal, masing-masing tepat memiliki satu edge masuk dan dua atau lebih edge keluar.

c node daun (leaf atau terminal), masing-masing tepat memiliki satu edge masuk dan tidak memiliki edge keluar.

Pada pohon keputusan, masing-masing node daun dinyatakan sebagai label kelas. Node

non-terminal meliputi node akar dan node internal

lainnya, mengandung atribut keadaan pengujian untuk memisahkan data yang memiliki karakteristik yang berbeda. Keadaan pengujian sepanjang path merupakan bentuk hubungan aturan antecedent, sedangkan kelas label pada

node daun dinyatakan sebagai aturan

consequent (Tan et al. 2006).

Salah satu algoritme yang digunakan dalam membangun pohon keputusan, yaitu algoritme

Hunt. Algoritme ini merupakan dasar dari

banyak algoritme induksi pohon keputusan yang telah ada, seperti ID3, C4.5 dan CART. Algoritme induksi pohon keputusan (decision

tree) dinamakan TreeGrowth. Input untuk

algoritme ini terdiri atas data training E dan serangkaian atribut F. Algoritme bekerja secara rekursif memilih atribut terbaik untuk membagi satu (tahap 7) dan memperluas node daun pohon (tahap 11 dan 12) sampai keadaan berhenti ditemukan (tahap 1). Berikut ini merupakan algoritme induksi pohon keputusan (Tan et al. 2006):

TreeGrowth (E, F)

1: jika stopping_cond (E,F) = terpenuhi, maka 2: daun = createNode().

3: label.daun = Classify (E). 4: kembali pada node daun. 5: lainnya

6: akar = createNode().

7: kondisi_test.akar = find_best_split (E,F).

8: misalkan V = {v|v adalah kemungkinan hasil dari kondisi_test.akar }. 9: untuk setiap v V

10: Ev = {e| kondisi_test.akar (e)

= v dan e E}.

11: anak = TreeGrowth(Ev, F).

12: tambahkan anak sebagai turunan akar

(akar anak) sebagai v. 13: akhir dari kondisi perulangan 14: akhir dari kondisi syarat jika 15: kembali pada akar.

Penjelasan rinci algoritme di atas, yaitu (Tan et al. 2006):

1 Fungsi createNode() memperluas pohon keputusan dengan membuat node baru. Sebuah node dalam pohon keputusan memiliki sebuah kondisi tes, yang dinotasikan kondisi_test.node, atau label kelas, yang dinotasikan sebagai label.node. 2 Fungsi find_best_split() menentukan atribut

mana yang harus dipilih sebagai kondisi tes untuk pemisahan training record. Pemilihan kondisi tes tergantung pada ukuran impurity yang digunakan untuk menentukan kualitas dari pemisahan. Beberapa ukuran yang digunakan adalah entropy, Gini index, dan statistik 2.

3 Fungsi Classify() menentukan label kelas untuk diberikan ke node daun. Untuk setiap

node daun, misalkan p(i|t) menyatakan fraksi

dari training record dari kelas I yang berhubungan dengan node t. Dalam banyak kasus, node daun diberikan ke kelas yang memiliki banyaknya training record

mayoritas:

label.daun = argmax p(i|t) i

dimana operator argmax mengembalikan argumen i yang memaksimumkan pernyataan p(i|t). Selain memberikan informasi yang diperlukan untuk menentukan label kelas dari node daun, fraksi p(i|t) dapat juga digunakan untuk menduga probabilitas bahwa sebuah record yang diberikan ke node daun t adalah anggota dari kelas i.

4 Fungsi stopping_cond() digunakan untuk menghentikan proses pertumbuhan tree dengan menguji apakah semua record yang sesuai dengan node tertentu memiliki label kelas yang sama atau nilai atribut yang sama. Cara lain untuk menghentikan fungsi rekursif adalah menguji apakah banyaknya

record yang sesuai dengan node tertentu

telah berada di bawah nilai threshold minimum tertentu.

Setelah membangun pohon keputusan, tahap

tree-pruning dapat dilakukan untuk mengurangi

ukuran pohon keputusan. Pohon keputusan yang terlalu besar mudah terjadi overfitting. Dua strategi untuk menghindari terjadinya

(11)

3

prepruning (pemangkasan dilakukan sejak awal

pembentukan pohon), dan postpruning

(pemangkasan dilakukan saat pohon telah terbentuk) (Tan et al. 2006).

Salah satu algoritme induksi pohon keputusan adalah algoritme C4.5. Berikut merupakan algoritme C.45 (Quinlan 1993): 1 Pohon keputusan dibangun dari data

training (ID3 biasa).

2 Hasil pohon diubah menjadi sekumpulan aturan. Banyaknya aturan sama dengan banyaknya path yang mungkin dari akar sampai node daun.

3 Setiap aturan dipangkas dengan menghilangkan prasyarat sehingga dapat meningkatkan akurasi klasifikasi.

4 Aturan yang telah dipangkas kemudian diurutkan, dan digunakan saat mengklasifikasikan contoh pengujian yang akan datang.

Bayesian Classifier

Bayesian classifier merupakan sebuah

pendekatan untuk memodelkan peluang hubungan antara himpunan atribut dengan kelas variabel tersebut. Implementasi dari

Bayesian classifier, yaitu naïve Bayes classifier

dan Bayesian belief network. (Tan et al. 2006). Andaikan X dan Y merupakan pasangan variabel acak. Peluang bersama keduanya, P(X=x, Y=y) menunjukkan peluang bahwa variabel X akan mengambil nilai x dan variabel Y akan mengambil nilai y. Suatu peluang bersyarat merupakan peluang bahwa sebuah variabel acak mengambil nilai tertentu jika diberikan variabel acak lain yang nilainya sudah diketahui. Sebagai contoh, peluang bersyarat P(Y=y|X=x) menunjukkan peluang bahwa variabel Y akan mengambil nilai y, jika diberikan variabel X yang ditinjau memiliki nilai x. Peluang bersama dan bersyarat untuk X dan Y dapat dilihat pada formula berikut (Tan

et al. 2006):

Dari formula itu, dapat diperoleh teorema Bayes (Tan et al. 2006):

dengan

Teorema Bayes merupakan dasar statistik dalam mengkombinasikan pengetahuan sebelumnya dari suatu kelas dengan keterangan baru yang terkumpul dari data. Variabel X pada persamaan 2 menunjukkan serangkaian atribut, sedangkan variabel Y menunjukkan variabel kelas. Jika variabel kelas memiliki hubungan

non-deterministic dengan atribut-atribut, dapat

diperlakukan X dan Y sebagai variabel acak dan menangkap hubungan keduanya secara probabilistik menggunakan P(Y|X). P(Y|X) merupakan peluang bersyarat yang juga dikenal sebagai posterior probability terhadap Y, sedangkan P(Y) merupakan prior probability (Tan et al. 2006).

Naïve Bayes Classifier

Naïve Bayes classifier menduga kelas

peluang bersyarat dengan mengasumsikan atribut secara kondisi bebas, jika diberi label kelas y (Tan et al. 2006). Naïve Bayes merupakan salah satu algoritme klasifikasi yang paling efektif dan efisien. Pada masalah pembelajaran klasifikasi, suatu pembelajaran berusaha membangun classifier dari serangkaian data training yang memiliki kelas. Diasumsikan bahwa A1,A2,. . .,An merupakan n

atribut. Suatu contoh E direpresentasikan oleh sebuah vektor (a1,a2,. . .,an), dimana ai

merupakan nilai atribut Ai. Variabel C

menunjukkan variabel kelas yang memiliki nilai + (kelas positif) atau nilai – (kelas negatif). Variabel c menunjukkan nilai dari variabel C. Sebuah naïve Bayes classifier atau

naïve Bayes sederhana didefinisikan sebagai

berikut:

Karena nilai p(ai|c) dapat diduga dari data training, maka mudah untuk membangun naïve Bayes (Zhang & Su 2004).

M-estimate

Jika peluang kelas bersyarat untuk atribut adalah nol, maka keseluruhan peluang bersyarat untuk kelas akan tidak dapat dihitung. Pendekatan mengestimasi peluang kelas bersyarat menggunakan tuple pecahan mungkin terlihat kurang kuat, khususnya jika training

sample yang tersedia kecil dan jumlah atribut

besar (Tan et al. 2006). Masalah ini dapat diatasi dengan menggunakan pendekatan

(12)

4 dengan:

n = jumlah data training dimana v = vj

nc = jumlah data training dimana v = vj

dan a = ai

p = prior estimate untuk P(a, i\vj)

m = ukuran sampel ekuivalen

Cara yang digunakan untuk memilih nilai p jika informasi lain tidak ada adalah asumsi keseragaman, yaitu p = 1/k, dimana k adalah jumlah nilai atribut ai yang dapat diambil. Untuk

nilai m, jika m bernilai nol, maka m-estimate akan ekuivalen dengan nc/n. Jika n dan m

keduanya tidak nol, maka fraksi yang diamati adalah nc/n dan probabilitas prior p akan

dikombinasikan menurut bobot m. Nilai m dinamakan ukuran sampel ekuivalen karena dalam persamaan m-estimate terjadi penguatan observasi aktual n dengan adanya tambahan sampel virtual m yang terdistribusi menurut p. Nilai m bisa diberi nilai sembarang, misalnya 3, tetapi konsisten untuk semua atribut (Santosa 2007).

Confusion matrix

Evaluasi model klasifikasi didasarkan pada perhitungan data pengujian yang diprediksi secara tepat dan tidak tepat oleh model. Perhitungan ini disusun ke dalam suatu tabel yang dikenal sebagai confusion matrix. Tabel 1 menggambarkan confusion matrix untuk masalah klasifikasi biner. Setiap masukan fij

pada tabel menunjukkan sejumlah data dari kelas i yang diprediksi menjadi kelas j. Sebagai contoh, f01 menunjukkan sejumlah kelas 0 yang

diprediksi tidak tepat sebagai kelas 1. Berdasarkan masukan pada confusion matrix, total data yang diprediksi tepat oleh model adalah (f11 + f00) dan total data yang diprediksi

tidak tepat adalah (f10 + f 01) (Tan et al. 2006).

Tabel 1 Confusion matrix masalah 2 kelas Confusion matrix Kelas hasil prediksi

Kelas=1 Kelas=0 Kelas sesungguh-nya Kelas=1 f11 f10 Kelas=0 f01 f00

Berdasarkan data dalam confusion matrix dapat dihitung akurasi dari model klasifikasi yang dihasilkan menggunakan formula berikut:

Sebagian besar algoritme klasifikasi mencari model yang mencapai akurasi tinggi, atau sama halnya, rata-rata error yang rendah saat diaplikasikan pada data uji (Tan et al. 2006).

Koefisien Korelasi Peringkat Spearman Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat

Spearman. Asumsi pada korelasi ini antara lain

(Daniel 1990):

Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua ukuran yang diperoleh dari objek atau individu yang sama.

Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990):

Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X1,Y1),

(X2,Y2), …, (Xn,Yn).

Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(Xi) dan R(Xi) = 1

jika Xi nilai pengamatan terkecil dari X.

Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Yi) dan R(Yi) = 1

jika Yi nilai pengamatan terkecil dari Y.

Jika ada nilai yang sama (ties) diantara X dan Y, digunakan peringkat rata-rata. Jika data bukan numerik, maka harus mampu diperingkatkan.

Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Daniel 1990):

Ho: X dan Y bebas

H1: X dan Y berhubungan langsung atau kebalikan

Statistik uji yang digunakan adalah statistik rsyang dirumuskan dengan (Daniel 1990):

dengan:

di = jumlah kuadrat beda antara

peringkat record X ke-i dengan peringkat record Y ke-i

(13)

5 R(Xi) = peringkat record ke-i pada

atribut X

R(Yi) = peringkat record ke-i pada

atribut Y

n = banyaknya record

rs = koefisien korelasi, dengan

-1 ≤ rs ≤ 1

Kaidah keputusan yang digunakan yaitu, jika rs > nilai kritis koefisien korelasi spearman

untuk n dan α(2) atau rs < nilai kritis ini, maka

tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai α menunjukkan taraf nyata yang digunakan. Nilai kritis ini diperoleh dari tabel koefisien korelasi peringkat Spearman.

Jika terdapat nilai yang sama pada pengamatan (ties), maka digunakan rumus sebagai berikut (Daniel 1990):

dengan:

tx = banyaknya pengamatan X yang sama untuk nilai tertentu (untuk peringkat tertentu)

ty = banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk peringkat tertentu)

Saat pemeriksaan angka yang sama (ties) digunakan,maka statistik uji yang digunakan adalah

Adapun perkiraan statistik uji nilai rs jika

jumlah pengamatan > 100, yaitu mengunakan statistik Z, dimana Z menyebar normal baku (Daniel 1990).

Uji Kebebasan Chi-Square

Hubungan diantara peubah kategorik yang berskala nominal dapat dianalisis dengan menggunakan uji kebebasan chi-square. Data dalam pengujian hubungan disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris × j kolom.

Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987):

Ho: Pij = Pi.Pj (saling bebas atau tidak ada

hubungan).

H1: Pij ≠ Pi.Pj (tidak saling bebas atau

terdapat hubungan).

Statistik uji yang digunakan adalah statistik

2_{yang dirumuskan dengan (Freeman 1987):}

dengan:

ni = total record pada baris ke-i

nj = total record pada kolom ke-j

n = total pengamatan

Pi = proporsi total record pada baris

ke-i terhadap total pengamatan Pj = proporsi total record pada kolom

ke-j terhadap total pengamatan

Eij = frekuensi harapan pada baris ke-i dan

kolom ke-j

Oij = frekuensi pengamatan pada baris ke-i

dan kolom ke-j

2

= nilai chi-square

Bentuk sebaran 2 tergantung dari derajat bebas (db), dimana derajat bebas menunjukkan banyaknya parameter (informasi) minimum yang digunakan.

Kaidah keputusan yang digunakan yaitu jika nilai statistik 2 > nilai 2(db,α) dari tabel chi-square, maka tolak Ho dan dapat disimpulkan bahwa antara peubah yang satu dengan peubah lainnya tidak saling bebas (berpengaruh). Nilai db yang digunakan yaitu (i-1) × (j-1). Nilai α menunjukkan taraf nyata yang digunakan.

METODE PENELITIAN Data

Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah Parmentier pada tahun 1994.

Parmentier menunjukkan bahwa prestasi akademik pertengahan dan akhir dari

(14)

6 mahasiswa dipengaruhi oleh tiga kumpulan

faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), ekspresi keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005).

Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan dapat dilihat pada Tabel 2. Pada Tabel 2, tabel biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa, sedangkan tabel IPK, gedung dan kegiatan asrama masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan.

Tabel 2 Data yang digunakan

Kelompok

data Atribut Sumber data

Biodata mahasiswa NIM, riwayat pendidikan orangtua, jalur masuk, riwayat kesehatan, jenis kelamin, pendapatan orangtua, jurusan, hobi, jumlah nilai UAN, dan wilayah asal SMU Direktorat TPB

IPK NIM dan IPK

TPB PPMB IPB

Gedung asrama

NIM, gedung,

dan kamar BPA

Kegiatan asrama NIM, dan kehadiran kegiatan BPA

Pengklasifikasian mahasiswa untuk menentukan tingkat keberhasilan mahasiswa tahun pertama di suatu perguruan tinggi dibagi menjadi tiga kategori, yaitu low risk (memiliki kemungkinan/resiko kecil tidak lulus), medium

risk (dibolehkan lulus berdasarkan ukuran yang

diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop out) (Superby et al. 2005). Ketiga kategori ini yang akan dijadikan label kelas.

Metode

Data mining merupakan bagian integral

dari Knowledge Discovery in Database (KDD), yang prosesnya secara keseluruhan mengubah barisan data menjadi informasi yang berguna. Proses terdiri atas rangkaian langkah transformasi dari proses preprocessing hingga

postprocessing dari hasil data mining (Tan et al. 2006). Penelitian ini mengacu pada proses

KDD tersebut.

Tahapan penelitian ini sebagaimana diilustrasikan pada Gambar 1 dan Gambar 2. Gambar 1 menunjukkan alur proses klasifikasi dengan menggunakan metode induksi pohon keputusan, sedangkan Gambar 2 alur proses klasifikasi dengan menggunakan metode naïve

Bayes. Kedua alur proses klasifikasi tersebut

melalui tahap praproses yang sama, yang membedakan hanya pada evaluasi keluaran yang diperoleh.

Preprocessing Data cleaning dan

data integration Data selection dan data transformation

Data mahasiswa

Penentuan data training dan data testing

Data set Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi

Deskripsi Mahasiswa IPB (Low Risk/Medium Risk/High Risk) berdasarkan rule-rule yang terbentuk

Data training Classifier (pohon keputusan) Data testing Classifier terbaik (pohon keputusan) Pembuatan model klasifikasi menggunakan Decision Tree Pemilihan classifier dengan nilai akurasi tertinggi

Gambar 1 Diagram alur proses klasifikasi dengan metode induksi pohon keputusan.

(15)

7

Preprocessing Data cleaning dan

data integration Data selection dan data transformation Data mahasiswa Menduga nilai akurasi dengan Confusion Matrix Nilai akurasi

Penentuan data training dan data testing

Data training Classifier (model probabilistik) Data testing Data set Pembuatan model klasifikasi menggunakan metode Bayesian (Naïve Bayes classifier)

Prediksi Keberhasilan Mahasiswa Baru IPB dengan Menggunakan

Classifier Terbaik (Low Risk/Medium Risk/High Risk)

Data mahasiswa baru (tanpa label kelas) Classifier terbaik

(model probabilistik)

Data mahasiswa baru (dengan label kelas) Pemilihan classifier dengan

nilai akurasi tertinggi

Gambar 2 Diagram alur proses klasifikasi dengan metode naïve Bayes.

Alur proses klasifikasi Gambar 1 dan Gambar 2 dapat diuraikan sebagai berikut: 1 Integrasi data, menggabungkan tabel dari

Direktorat TPB, PPMB IPB, dan BPA yaitu biodata mahasiswa, IPK, gedung, dan kegiatan asrama.

2 Pembersihan data, membuang data yang mengandung nilai yang hilang dan data yang duplikat.

3 Seleksi data, mengambil data yang relevan dengan cara memilih atribut yang berpengaruh menggunakan uji hipotesis kebebasan chi-square dan uji Spearman. 4 Transformasi data, mengubah data ke

bentuk yang dapat di-mining sesuai dengan perangkat lunak yang digunakan pada penelitian.

5 Penentuan data training dan data testing, sebelum melalui tahap data mining, ditentukan terlebih dahulu data set yang akan digunakan. Data set dibagi menjadi dua bagian, yaiu data training dan data

testing. Penentuan data set dilakukan

dengan menggunakan pembagian 70% untuk training dan 30% untuk testing serta metode 10-fold cross validation.

6 Data mining, tahap ini merupakan proses

yang penting, dimana metode diterapkan untuk menggali pola data yang ada. Metode yang digunakan yaitu induksi pohon keputusan dan naïve Bayes. Model klasifikasi dibuat oleh masing-masing metode dengan menggunakan teknik data

mining ini.

Cara kerja metode induksi pohon keputusan seperti diilustrasikan pada Gambar 3.

Data

training

Pembagian data training ke dalam

subset-subset (Dt)

Jika record pada Dt anggota kelas yang

sama yt Variabel t = node daun dengan label yt Penentuan atribut yang digunakan sebagai kondisi tes menggunakan ukuran impurity (information gain) Tidak Ya Nilai information

gain tiap atribut

Pemilihan atribut dengan nilai information gain tertinggi Atribut terpilih Kondisi berhenti tes atribut terpenuhi

Classifier (pohon keputusan) Ya Tidak Ukuran pohon keputusan besar Pemangkasan pohon Classifier (pohon keputusan sudah dipangkas) Classifier (pohon keputusan tanpa dipangkas) Tidak Ya

Gambar 3 Cara kerja metode induksi pohon keputusan. Berikut ini merupakan uraian cara kerja induksi

pohon keputusan pada Gambar 3 dalam

(16)

8 Pembagian data training ke dalam

subset-subset. Misalkan Dt adalah himpunan dari training record yang berasosiasi dengan

node t dan y = {y1, y2, ..., yc } adalah

label-label kelas.

Jika semua record dalam Dt anggota kelas yang sama yt, maka t adalah node daun dengan label yt.

Jika Dt mengandung record yang

merupakan anggota dari lebih dari dari satu kelas, sebuah kondisi tes atribut dipilih untuk mempartisi record-record ke dalam

subset-subset yang lebih kecil. Child node

dibuat untuk setiap keluaran dari kondisi

tes dan record-record dalam Dt

didistribusikan ke children berdasarkan pada keluaran dari kondisi tes. Selanjutnya, algoritme secara rekursif diaplikasikan ke setiap child node (Tan et

al. 2006).

Penentuan atribut yang digunakan sebagai kondisi tes atribut dilakukan dengan menggunakan ukuran impurity. Salah satu ukuran impurity yang digunakan yaitu

information gain. Jadi, dalam memilih

atribut untuk memecah obyek ke dalam beberapa kelas harus dipilih atribut yang menghasilkan information gain paling besar (Santosa 2007).

Kondisi berhenti dilakukan dengan menguji apakah semua record memiliki label kelas yang sama atau nilai atribut yang sama (Tan et al. 2006).

Setelah membangun pohon keputusan, langkah tree-pruning dapat dilakukan untuk mengurangi ukuran dari pohon keputusan. Pruning dilakukan dengan memangkas cabang-cabang dari pohon awal untuk meningkatkan kemampuan generalisasai dari pohon keputusan (Tan et

al. 2006).

Cara kerja metode naïve Bayes classifier dilustrasikan pada Gambar 4. Berikut ini merupakan uraian cara kerja metode naïve

Bayes pada Gambar 4:

Setiap data contoh yang direpresentasikan dengan sebuah n-vektor fitur dimensional, X=(x1,x2,…xn), menggambarkan ukuran n

yang dibuat pada contoh dari n atribut, berturut-turut A1,A2,…,An (Han & Kamber

2006). P(X|C1) × P(C1) > P(X|C2) × P(C2) && P(X|C1) × P(C1) > P(X|C3) × P(C3) Suatu data X masuk kelas C1 (resiko rendah) Ya Tidak Penentuan data

training dan data testing

Data testing Data training

Menghitung nilai P(xk|Ci) Menghitung nilai P(Ci|X) = P(X|Ci) × P(Ci) Menghitung nilai P(Ci), i=1,2,dan 3

Untuk atribut kategorik P(xk|Ci) = sik/si

Untuk atribut kontinu menggunakan fungsi sebaran Gaussian P(xk|Ci) = g(xk, μCi.,σ Ci.) Model probabilistik Menghitung nilai P(X|Ci) dan P(Ci) per record P(X|C2) × P(C2) > P(X|C1) × P(C1) && P(X|C2) × P(C2) > P(X|C3) × P(C3) Suatu data X masuk kelas C2 (resiko sedang) Suatu data X masuk kelas C3 (resiko tinggi) Ya Tidak

Gambar 4 Cara kerja metode naïve Bayes.

Andaikan terdapat m kelas, C1,C2,…,Cn.

diberikan suatu data contoh X yang belum memiliki kelas, classifer akan memprediksi X masuk ke dalam suatu kelas dengan nilai

posterior probability tertinggi, dengan

kondisi pada X. Naïve Bayes classifier menentukan kelas data X pada kelas Ci jika

dan hanya jika

P(Ci|X) > P(Cj|X), untuk 1≤j≤m, j≠i.

Jadi, dimaksimumkan P(Ci|X). Kelas Ci

untuk P(Ci|X) dimaksimumkan oleh maximum posteriori hypothesis. Dengan

teorema Bayes:

Karena P(X) tetap untuk seluruh kelas, maka hanya nilai P(X|Ci) P(Ci) yang perlu

dimaksimumkan. Jika kelas prior

probability tidak diketahui, maka

umumnya diasumsikan bahwa prior

probability kelas-kelas tersebut

kemungkinan memiliki nilai yang sama, P(C1) = P(C2) = P(C3) = . . . = P(Cm), dan

kita dapat memaksimumkan hanya nilai P(X|Ci). Kelas prior probability mungkin

diduga dengan P(Ci) = si/s, dimana si

(17)

9 s total banyaknya data training (Han &

Kamber 2006) .

Menghitung nilai P(X|Ci)

P(X|Ci) = Πnk=1 P(xk|Ci)

Peluang P(x1|Ci), P(x1|Ci),. . ., P(xn|Ci)

dapat diduga dari data training, dimana a jika Ak atribut kategorik, maka:

P(xk|Ci) = sik/si,

di mana sik banyaknya data training pada

kelas Ci yang memiliki nilai xk untuk Ak

dan si banyaknya data training pada

kelas Ci.

b jika Ak atribut kontinu, maka atribut

secara khusus diasumsikan memiliki sebaran Gaussian, sehingga:

P(xk|Ci) = g(xk, μCi.,σ Ci.)

= 1 e-(xk-μCi)2/2σCi

2 σ Ci.

di mana g(xk, μCi.,σ Ci.) fungsi kepadatan

Gaussian (normal) untuk atribut Ak,

sedangkan μCi. dan σ Ci berturut-turut

merupakan rata-rata dan standar deviasi untuk atribut Ak data training kelas Ci

(Han & Kamber 2006).

Untuk mengklasifikasikan data X yang belum memiliki kelas, nilai P(X|Ci) P(Ci)

untuk setiap kelas Ci dievaluasi. Data X

ditentukan masuk pada kelas Ci jika dan

hanya jika P(X|Ci) P(Ci) > P(X|Cj) P(Cj),

untuk 1 ≤j≤m, j≠i. Data X yang ditentukan pada kelas Ci dimaksimumkan oleh P(X|Ci)

P(Ci) (Han & Kamber 2006).

7 Perhitungan nilai akurasi, setelah classifier telah dibangun pada kedua metode, maka dilakukan pengujian dengan menggunakan

data testing untuk mengetahui keakuratan

setiap classifer. Keakuratan classifer

dihitung dengan menggunakan confusion

matrix. Classifier terbaik dipilih

berdasarkan nilai akurasi tertinggi pada masing-masing metode.

8 Evaluasi keluaran, pada tahap ini dilakukan evaluasi terhadap kesimpulan atau informasi yang diperoleh dari data.

Classifier yang diperoleh dari naïve Bayes

berupa model probabilistik, dimana model ini dapat memprediksi keberhasilan mahasiswa baru IPB. Evaluasi keluaran dilakukan dengan memasukkan data uji tanpa kelas pada model probabilitik terbaik hingga diperoleh kelas target yang sesuai.

Classifier yang diperoleh dari induksi pohon keputusan yaitu berupa

aturan-aturan yang diperoleh dari pohon keputusan, dimana aturan-aturan tersebut mendeskripsikan tingkat keberhasilan mahasiswa.

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut:

a Perangkat keras berupa komputer personal dengan spesifikasi:

Memori DDR 768 MB

Harddisk 40 GB

b Perangkat lunak

Sistem operasi Windows XP Profesional

Intel ® Pentium ® M processor 1.60GHz

QtOctave 0.7.2 Weka 3.6.0

Microsoft Access 2007 Microsoft Excel 2007

HASIL DAN PEMBAHASAN Data yang digunakan terdiri atas empat kelompok data (tabel) dan keempatnya disimpan dalam format yang berbeda, yaitu biodata mahasiswa dalam format spreadsheet Excel, IPK mahasiswa dalam format

spreadsheet Excel, gedung asrama dalam

format Ms. Word, dan kegiatan asrama dalam format DBMS Ms. Access.

Sebelum melalui tahap praproses, pada tabel IPK ditambahkan atribut jurusan dan label kelas. Atribut jurusan diperoleh dengan melihat NIM mahasiswa, kemudian mencocokkannya dengan kode jurusan mayor IPB tahun akademik 2007/2008. Kode jurusan mayor IPB dapat dilihat pada Lampiran 1. Selanjutnya, penentukan label kelas dari tiap mahasiswa dilakukan dengan melihat nilai IPK, dimana jika IPK ≥ 2.76 maka label kelas resiko rendah, jika 2 ≤ nilai IPK < 2.76 maka resiko sedang, dan jika IPK < 2 maka resiko tinggi. Dengan demikian, atribut pada IPK menjadi ada 6, yaitu NIM, nama, status kelanjutan studi, IPK, jurusan, dan kelas target.

Integrasi dan Pembersihan Data

Setelah dilakukan penambahan atribut jurusan dan label kelas pada tabel IPK, format penyimpanan biodata dan IPK mahasiswa masing-masing diubah terlebih dahulu, dari

(18)

10 format Ms. Excel menjadi format Ms. Access.

Hal ini dilakukan untuk memudahkan dalam tahap praproses berikutnya. Data yang digabungkan pertama kali yaitu biodata mahasiswa dan IPK mahasiswa. Biodata mahasiswa memiliki 3010 record dengan atribut sebanyak 64 sedangkan IPK mahasiwa terdiri dari 2989 record dan 6 atribut. Penggabungan data IPK dan biodata mahasiswa dilakukan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut, dan hasilnya ada sebanyak 2775

record dengan 70 atribut.

Selanjutnya dilakukan pemilihan atribut pada hasil gabungan data IPK dan biodata mahasiswa. Dari 70 atribut, dipilih sebanyak 13 atribut, yaitu nama, nim, jurusan, kelas target, jalur masuk, jenis kelamin, pendapatan, pendidikan, alamat, nama SMA, jumlah NEM, minat, dan sakit.

Penggabungan selanjutnya dilakukan antara data gedung asrama dan data hasil gabungan IPK dan biodata. Data gedung asrama terdiri dari 6 atribut, yaitu nama, NIM, gedung, kamar, asal SMA, dan propinsi. Sebelumnya, data gedung asrama dirapihkan dan digabungkan terlebih dahulu ke dalam format Ms. Excel, karena dokumen ini tersebar dalam beberapa file dokumen per gedung asrama (A1, A2, A3, C1, C2, C3, dan RUSUNAWA). Format data gedung kemudian diubah lagi ke dalam format Ms. Access. Setelah itu, ditambahkan atribut asal daerah dan asal teman sekamar. Atribut asal daerah dibuat dalam skala pulau dengan bantuan atribut asal SMA. Kemudian atribut asal daerah teman sekamar diperoleh dengan bantuan atribut NIM, asal daerah, serta gedung dan kamar asrama. Data gedung asrama kemudian digabung dengan data hasil gabungan data IPK dan biodata mahasiswa. Penggabungan berdasarkan kesamaan NIM dari masing-masing record pada kedua tabel tersebut.

Data terakhir yang digabungkan adalah kegiatan asrama. Data kegiatan asrama juga tersebar pada beberapa file dengan format Ms. Access. Sebelumnya data dirapihkan dan digabung dalam satu file kegiatan asrama. Data kegiatan asrama terdiri atas NIM, ID kegiatan, total kegiatan, total kehadiran, izin, sakit, dan tanpa keterangan. Atribut yang dipilih yaitu hanya NIM dan total kehadiran. Selanjutnya data kegiatan asrama digabung dengan data hasil gabungan data IPK, biodata mahasiswa, dan gedung asrama. Penggabungan berdasarkan kesamaan NIM pada kedua data.

Ketika dilakukan tahap penggabungan data, data yang tidak memiliki NIM yang sama dengan NIM pada data lain akan secara langsung tereliminasi. Record yang mengandung nilai kosong atau duplikat pun dihilangkan dari data. Atribut yang duplikat juga dihilangkan.

Hasil akhir dari proses penggabungan data IPK, biodata mahasiswa, gedung asrama, dan kegiatan asrama berupa tabel baru yang terdiri atas 1194 record dan 12 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, kehadiran kegiatan, dan kelas target.

Hasil penggabungan data IPK dan biodata mahasiswa sebanyak 2775 record yang digunakan dalam proses klasifikasi dengan menggunakan metode naïve Bayes. Pada pembuatan model klasifikasi menggunakan

naïve Bayes tidak mengikutsertakan data dari

BPA (Badan Pengelola Asrama) karena model digunakan untuk memprediksi mahasiswa baru IPB yang belum mengikuti kegiatan BPA. Berbeda dengan proses klasifikasi dengan menggunakan metode induksi pohon keputusan, pada metode ini digunakan hasil penggabungan akhir data IPK, biodata mahasiswa, gedung, dan kegiatan asrama sebanyak 1194 record yang mengikutsertakan data dari BPA.

Seleksi Data

Pemilihan atribut dilakukan terhadap 11 atribut, yaitu jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, nilai UAN SMA, hobi, riwayat kesehatan, dan kehadiran kegiatan dengan menggunakan uji hipotesis statistika. Uji yang digunakan yaitu uji kebebasan chi-square dan uji korelasi peringkat

Spearman. Uji kebebasan diterapkan untuk

atribut yang bertipe kategorik nominal, yaitu untuk atribut jurusan, asal daerah, asal teman sekamar, jalur masuk, jenis kelamin, pendapatan, riwayat pendidikan, hobi, dan riwayat kesehatan. Uji Spearman diterapkan untuk atribut yang bertipe numerik, yaitu nilai UAN SMA dan kehadiran kegiatan.

Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Kelas target dalam hal ini yang menunjukkan tingkat keberhasilan mahasiswa.

(19)

11 Sebelum dilakukan uji kebebasan, dibuat 9

tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target dapat dilihat pada Tabel 3, sedangkan tabel kontingensi lainnya dapat dilihat pada Lampiran 2.

Tabel 3 Tabel kontingensi antara jenis kelamin dan kelas target

Jenis kelamin Kelas target Total Resiko rendah Resiko sedang Resiko tinggi Perempuan 512 262 54 828 Laki-laki 187 140 45 372 Total 699 402 99 1200

Selanjutnya, dihitung nilai frekuensi harapan (Eij) dan nilai chi-square ( 2) dari setiap tabel

kontingensi. Tabel 4 menunjukkan hasil perhitungan Eij dan 2 untuk atribut jenis

kelamin.

Tabel 4 Nilai frekuensi harapan dan chi-square atribut jenis kelamin

Ei1 Ei2 Ei3 i12 i22 i32 482.31 277.38 68.31 1.83 0.85 3.00 216.69 124.62 30.69 4.07 1.90 6.67 2 18.32 2 (db, α) = 2 (2, 0.05) 5.99

Nilai α yang digunakan yaitu sebesar 0.05. Berdasarkan Tabel 2, nilai 2 > 2

(db, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh nyata dengan atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 2.

Untuk hasil uji kebebasan secara keseluruhan dapat dilihat pada Tabel 5.

Tabel 5 Hasil uji kebebasan chi-square

Atribut Hubungan dengan kelas

target

Asal daerah Berpengaruh

Asal teman sekamar Tidak berpengaruh

Hobi Berpengaruh

Jalur masuk Berpengaruh

Jenis kelamin Berpengaruh

Jurusan Berpengaruh

Pendapatan Tidak berpengaruh

Riwayat kesehatan Tidak berpengaruh

Riwayat pendidikan Tidak berpengaruh

Uji yang dilakukan selanjutnya yaitu uji

Spearman. Uji ini hanya digunakan untuk

atribut nilai UAN SMA dan kehadiran kegiatan. Hasil dari uji ini dapat dilihat pada Tabel 6.

Tabel 6 Hasil uji Spearman

Atribut Hubungan dengan kelas

target

Nilai UAN SMA Berpengaruh

Kehadiran kegiatan Berpengaruh

Transformasi Data

Pada penelitian ini, teknik data mining yang digunakan adalah induksi pohon keputusan dan naïve Bayes. Keduanya menggunakan perangkat lunak yang berbeda. Oleh karena itu, sebelum memasuki tahap data

mining, data ditransformasi terlebih dahulu ke

bentuk yang dapat di-mine, disesuaikan dengan perangkat lunak yang digunakan.

Proses klasifikasi menggunakan induksi

pohon keputusan dikerjakan pada perangkat

lunak Weka 3.6.0.

Untuk memudahkan dalam proses klasifikasi, nilai-nilai atribut pada atribut kategorik dikodekan, dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format arff WEKA dan ditambahkan inisialisasi untuk masing-masing atribut, seperti di bawah ini:

@relation keberhasilan_mahasiswa @attribute jurusan {A1, A2, A3, A4, B, C1, C2, C3, C4, C5, D, E1, E2, E3, E4, F1, F2, F3, G1, G2, G3, G4, G5, G6, G7, G8, H1, H2,H3, H4, I1, I2, I3}

@attribute asal_daerah {JA,KAL, MAL, NT, PAP, SUL, SUM, LI}

@attribute jalur_masuk {USMI, SPMB, PIN, BUD}

@attribute jenis_kelamin {L, P} @attribute nilai_UAN_SMA numeric @attribute hobi {KHS, OR, AGM, SEN, BD} @attribute kehadiran_kegiatan numeric @attribute kelas_target {resiko_rendah, resiko_sedang, resiko_tinggi} @data

Inisialiasasi @relation menunjukkan nama

data set yang digunakan. Inisialisasi @attribute

menunjukkan atribut dan nilai atribut, dimana bertipe data nominal atau numerik (real atau

(20)

12 menunjukkan inisialisasi untuk keseluruhan isi

data.

Proses klasifikasi menggunakan naïve

Bayes dikerjakan pada perangkat lunak

QtOctave 0.7.2. Data yang bertipe kategorik (asal daerah, hobi, jalur masuk, jenis kelamin, jurusan) direpresentasikan dalam bentuk kategori angka. Hal ini dilakukan untuk mempermudah proses klasifikasi dengan menggunakan QtOctave 0.7.2. Misalnya pada atribut kategorik kelas target, nilai atribut resiko rendah, resiko sedang, dan resiko tinggi direpresentasikan berturut-turut dengan angka 1, 2 dan 3. Untuk lebih jelasnya, nilai atribut kategorik dapat dilihat pada Lampiran 3. Kemudian format data diubah ke dalam format

file text.

Penentuan Data Training dan Data Testing Penentuan data training dan data testing menggunakan dua metode, yaitu dengan pembagian 70% training dan 30% testing, serta

10-fold cross validation. Masing-masing

metode dibuat dua percobaan, yaitu percobaan menggunakan data set dengan proporsi jumlah

record setiap kelas target sama dan dengan

proporsi jumlah record setiap kelas target berbeda. Dalam teknik pembagian data dengan menggunakan 10-fold cross validation, data dibagi menjadi (S1,…,S10) yang berbeda dengan jumlah sama besar. Setiap kali sebuah

subset digunakan sebagai test set, maka 9 buah

partisi lainnya akan dijadikan sebagai training

set.

Data set yang digunakan induksi pohon

keputusan yaitu terdiri atas 7 atribut termasuk kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, kehadiran kegiatan, hobi, dan kelas target dan 1194 record, sedangkan pada

naïve Bayes yaitu terdiri atas 6 atribut termasuk

kelas target, yaitu asal daerah, jalur masuk, jenis kelamin, jurusan, hobi, dan kelas target, dan 2775 record. Pada masing-masing data set, sebelumnya diambil sebanyak 1% untuk data uji tanpa kelas, yang akan digunakan pada model akhir yang dihasilkan. Sehingga diperoleh sebanyak 12 record untuk data uji tanpa kelas pada pohon keputusan, sedangkan pada naïve

Bayes ada sebanyak 28 record. Kemudian sisa data set yang akan digunakan untuk data training dan data testing. Penentuan data training dan data testing untuk lebih jelasnya

dapat lihat pada Tabel 7 dan Tabel 8.

Tabel 7 Penentuan data untuk induksi pohon keputusan Proporsi jumlah record setiap kelas target Percobaan Data

set Metode uji

Berbeda 1 1182 70% training dan 30% testing 2 1182 k-fold cross validation Sama 3 288 70% training dan 30% testing 4 288 k-fold cross validation

Tabel 8 Penentuan data untuk naïve Bayes

Proporsi jumlah record setiap kelas target Percobaan Data

set Metode uji

Berbeda 1 2747 70% training dan 30% testing 2 2747 k-fold cross validation Sama 3 891 70% training dan 30% testing 4 891 k-fold cross validation Teknik Klasifikasi

Pada tahap ini dilakukan teknik klasifikasi dengan menggunakan metode induksi pohon keputusan untuk membangun model pohon keputusan dan metode naïve Bayes untuk membangun model probabilistik. Dari model pohon keputusan yang diperoleh, dibentuk aturan-aturan, dimana aturan ini yang mendeskripsikan tingkat keberhasilan mahasiswa. Model probabilistik digunakan untuk memprediksi mahasiswa baru IPB. Induksi Pohon Keputusan

Training

Fase training dilakukan untuk membangun model klasifikasi. Percobaan pembangunan model klasifikasi dengan menggunakan induksi pohon keputusan dilakukan sebanyak 4 (empat) kali berdasarkan pembagian data training dan

data testing. Sebagai contoh, akan dijelaskan

pembentukan pohon keputusan dengan menggunakan proprosi jumlah record setiap

(21)

13 kelas target sama (percobaan 3) sebanyak 288

record, dengan training sebesar 202 record dan testing sebesar 86 record. Contoh data untuk

proses training dapat dilihat pada Lampiran 4. Pembentukan aturan klasifikasi dilakukan dengan menggunakan classifier J.48 (algoritme c.45 versi Java dalam Weka) pada perangkat lunak Weka 3.6.0. Berikut ini merupakan langkah-langkah pembentukan aturan klasifikasi dengan menggunakan algoritme induksi pohon keputusan, yaitu:

1 Melakukan pembagian data training ke dalam subset-subset.

2 Menghitung nilai information gain dari tiap atribut untuk menentukan atribut yang dijadikan sebagai kondisi tes atribut.

3 Data training diekspansi berdasarkan

atribut dengan information gain tertinggi sampai tidak ada lagi data yang dapat diekspansi atau tidak ada lagi atribut yang dapat digunakan untuk mengekspansi tree. Model klasifikasi berupa pohon keputusan (percobaan 3) dapat dilihat pada Gambar 5. Dari pohon keputusan yang diperoleh, dibentuk aturan-aturan. Aturan yang terbentuk yaitu ada sebanyak 3 buah yang dapat dilihat pada Tabel 9. Keterangan nilai atribut dapat dilihat pada Lampiran 3.

Gambar 5 Pohon keputusan pada percobaan 3. Tabel 9 Aturan-aturan dari percobaan 3

No Aturan 1 IF nilai_UAN_SMA <= 22.73 THEN kelas_target = resiko_sedang 2 IF nilai_UAN_SMA > 22.73 AND nilai_UAN_SMA <= 23.47 THEN kelas_target = resiko_rendah 3 IF nilai_UAN_SMA > 22.73 AND nilai_UAN_SMA > 23.47 THEN kelas_target = resiko_tinggi

Berdasarkan hasil aturan percobaan 3 pada Tabel 9, terlihat bahwa tingkat keberhasilan

mahasiswa hanya dipengaruhi faktor nilai UAN SMA.

Testing

Fase testing dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan dari fase training. Dalam hal ini, model merupakan sekumpulan aturan-aturan yang diperoleh dari pohon keputusan. Proses testing dilakukan dengan cara memasukkan data testing pada aturan yang telah terbentuk.

Pada penelitian ini dilakukan empat kali percobaan, sehingga diperoleh empat model aturan yang berbeda. Tabel 10 menunjukkan banyaknya aturan yang dihasilkan setiap percobaan.

Tabel 10 Banyak aturan yang dihasilkan setiap percobaan Proporsi jumlah kelas target Percobaan Data set Metode uji Banyak aturan Berbeda 1 1182 70 % training dan 30% testing 6 Berbeda 2 1182 k-fold cross validation 125 Sama 3 288 70 % training dan 30% testing 3 Sama 4 288 k-fold cross validation 3 Naïve Bayes Fase Training

Fase training pada naïve Bayes akan menghasilkan model berupa model probabilistik. Sebagai contoh, akan dijelaskan pembentukan model probabilistik dengan menggunakan data pada percobaan 1. Langkah-langkah dalam pembangunan model dengan menggunakan naïve

Bayes, yaitu:

1 Menghitung nilai peluang prior setiap kelas (kelas resiko rendah, resiko sedang, dan resiko tinggi)

2 Menghitung nilai peluang bersyarat likelihood untuk seluruh atribut .

3 Menghitung nilai mean dan simpangan baku untuk atribut kontinu.

(22)

14 Berdasarkan langkah-langkah di atas,

diperoleh model klasifikasi berupa model probilistik. Model probablisitik terdiri atas peluang prior untuk masing-masing kelas, peluang likelihood untuk semua atribut, dan

mean serta simpangan baku dari atribut kontinu.

Tabel 11 menujukkan bagian model probabilistik yang diperoleh dari percobaan 1. Model probabilistik yang dihasilkan dari percobaan 1 secara lengkap dapat dilihat pada Lampiran 5.

Tabel 11 Model Probabilistik Percobaan 1

Model Probabilistik P(resiko_rendah) = 0.53718 P(resiko_sedang) = 0.35465 P(resiko_tinggi) = 0.10816 P(jenis_kelamin = 1| resiko_rendah) = 0.36921 P(jenis_kelamin = 2| resiko_rendah) = 0.63079 P(jenis_kelamin = 1| resiko_sedang) = 0.43139 P(jenis_kelamin = 2| resiko_sedang) = 0.56861 P(jenis_kelamin = 1| resiko_tinggi) = 0.53318 P(jenis_kelamin = 2| resiko_tinggi) = 0.46682

Nilai peluang P(resiko_rendah) = 0.53718 pada Tabel 11 menunjukkan bahwa peluang seorang mahasiswa baru memiliki resiko rendah tidak lulus adalah sebesar 0.53718. Nilai P(jenis_kelamin = 1| resiko_rendah) = 0.36921 menunjukkan bahwa peluang seorang mahasiswa baru berjenis kelamin laki-laki dan memiliki resiko rendah tidak lulus adalah sebesar 0.36921.

Fase Testing

Fase testing yang pada naïve Bayes dilakukan untuk memperoleh akurasi dari model yang telah dihasilkan data training. Pada pembangunan klasifikasi dengan menggunakan

naïve Bayes juga dilakukan percobaan sebanyak

empat kali, sehingga dihasilkan empat model probabilistik.

Perhitungan Nilai Akurasi

Setelah model dibangun pada kedua metode, dan dilakukan pengujian, maka diperoleh akurasi pada masing-masing model. Akurasi pada setiap model dihitung dengan menggunakan confusion matrix. Berikut ini dijabarkan confusion matrix dari masing-masing metode. Angka 1, 2, dan 3 pada tabel berturut-turut menunjukkan kelas resiko rendah, resiko sedang, dan resiko tinggi.

Tabel 12 Confusion matrix percobaan 1 menggunakan induksi pohon keputusan

Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh- nya 1 207 0 0 207 2 119 0 0 119 3 27 2 0 29 Total 353 2 0 355

Percobaan 1 menggunakan data sebanyak 1182 record dengan proporsi pembagian data training dan data testing yang berbeda-beda menggunakan metode 70% dan 30%. Dari tabel 12, terlihat bahwa seluruh record kelas 1 sebanyak 207 record diprediksi tepat sebagai kelas 1. Selanjutnya, seluruh record kelas 2 sebanyak 119 record diprediksi tepat sebagai kelas 2. Seluruh record pada kelas 3 diprediksi tidak tepat, karena seluruh record diprediksi sebagai kelas 1 dan 2, masing-masing 27 dan 2

record. Dari hasil ini, dapat dihitung nilai

akurasi model.

Confusion matrix Kelas hasil prediksi Total

1 2 3 Kelas sesungguh-nya 1 573 109 7 689 2 263 128 6 397 3 46 48 2 96 Total 882 285 15 1182

Percobaan 2 menggunakan data sebanyak 1182 record dengan pembagian data menggunakan metode 10-fold cross validation. Dari Tabel 13, terlihat bahwa sebanyak 573

record kelas 1 diprediksi tepat sebagai kelas 1,

sedangkan sisanya sebanyak 109 dan 7 record berturut-turut diprediksi tidak tepat sebagai kelas 2 dan 3. Selanjutnya, sebanyak 128 record kelas 2 diprediksi tepat sebagai kelas 2, sisanya sebanyak 263 dan 6 record berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 3. Hanya 2 record pada kelas 3 yang diprediksi tepat sebagai kelas 3, sisanya sebanyak 46 dan 48 berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.

(23)

15 Tabel 14 Confusion matrix percobaan 3

menggunakan induksi pohon keputusan Confusion matrix Kelas hasil prediksi Total

Percobaan 3 menggunakan data sebanyak 288 record dengan proporsi pembagian data training dan data testing yang sama menggunakan metode 70% dan 30%. Data ini diambil dari masing-masing kelas sebanyak jumlah record pada kelas 3. Dari Tabel 14, terlihat bahwa hanya 3 record kelas 1 yang diprediksi tepat sebagai kelas 1, sedangkan sisanya sebanyak 25 record seluruhnya diprediksi tidak tepat sebagai kelas 3. Selanjutnya, hanya 2 record kelas 2 yang diprediksi tepat sebagai kelas 2, sisanya sebanyak 27 record diprediksi tidak tepat sebagai kelas 1. Seluruh record kelas 3 sebanyak 29 record diprediksi tepat sebagai kelas 3. Dari hasil ini, dapat dihitung nilai akurasi model.

Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh-nya 1 47 49 0 96 2 9 87 0 96 3 14 33 49 96 Total 70 169 49 288

Percobaan 4 menggunakan data sebanyak

288 record dengan pembagian data

menggunakan metode 10-fold cross validation. Dari Tabel 15, terlihat bahwa sebanyak 47

sedangkan sisanya sebanyak 49 record

diprediksi tidak tepat sebagai kelas 2. Selanjutnya, sebanyak 87 record kelas 2 diprediksi tepat sebagai kelas 2, sisanya sebanyak 9 record diprediksi tidak tepat sebagai kelas 1. Sebanyak 49 record pada kelas 3 diprediksi tepat sebagai kelas 3, sisanya 14 dan 33 record brturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.

Tabel 16 Confusion matrix percobaan 1 menggunakan naïve Bayes

Confusion matrix Kelas hasil prediksi Total 1 2 3 Kelas sesungguh-nya 1 437 2 4 443 2 255 19 18 292 3 63 11 15 89 Total 755 32 37 824

Percobaan 1 naïve Bayes menggunakan data sebanyak 2747 record dengan proporsi pembagian data training dan data testing yang berbeda-beda menggunakan metode 70% dan 30%. Dari tabel 16, terlihat bahwa sebanyak 437 record kelas 1 diprediksi tepat sebagai kelas 1, sedangkan sisanya sebanyak 2 dan 4

record berturut-turut diprediksi tidak tepat

sebagai kelas 2 dan 3. Selanjutnya, sebanyak 19

sisanya sebanyak 255 dan 18 diprediksi tidak tepat sebagai kelas 1 dan 3. Sebanyak 15

sisanyan sebanyak 11 dan 15 record berturut-turut diprediksi tidak tepat sebagai kelas 1 dan 2. Dari hasil ini, dapat dihitung nilai akurasi model.:

Tabel 17 Confusion matrix percobaan 2 menggunakan naïve Bayes

Confusion matrix Kelas hasil prediksi Total

Percobaan 2 menggunakan data sebanyak 2747 record dengan pembagian data menggunakan metode 10-fold cross validation. Dengan menggunakan metode ini, tabel

confusion matrix yang dihasilkan 10 tabel.

Tabel 17 merupakan salah satu tabel confusion

matrix yang dihasilkan. Tabel ini memiliki

akurasi yang tinggi dibandingkan 9 tabel lainnya. Untuk tabel confusion matrix lainnya dapat dilihat pada Lampiran 6.

Pada Tabel 17 terlihat bahwa sebanyak 125