PREDIKSI TINGKAT KEBERHASILAN MAHASISWA TINGKAT I IPB DENGAN METODE k-nearest NEIGHBOR NINON NURUL FAIZA

(1)

i

PREDIKSI TINGKAT KEBERHASILAN MAHASISWA

TINGKAT I IPB DENGAN METODE k-NEAREST NEIGHBOR

NINON NURUL FAIZA

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(2)

PREDIKSI TINGKAT KEBERHASILAN MAHASISWA

TINGKAT I IPB DENGAN METODE k-NEAREST NEIGHBOR

NINON NURUL FAIZA

Skripsi

Sebagai salah satu syarat untuk memperoleh gelar

Sarjana Komputer pada

Departemen Ilmu Komputer

DEPARTEMEN ILMU KOMPUTER

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

INSTITUT PERTANIAN BOGOR

BOGOR

2009

(3)

ABSTRACT

NINON NURUL FAIZA. Predicting Successful of First year Students at IPB using k-Nearest Neighbor. Under the direction of IMAS SUKAESIH SITANGGANG and ENDANG PURNAMA GIRI.

Analysis of academic data and personal data of first-year students in IPB is necessary to predict the successful of their study in the end of the first year. One of techniques in classification that can be used for completing that task is k-nearest neighbor that will build a classifier. This research aimed to develop classifier to predict the successful of first year students at IPB. The attributes used in this research are selected based on target class-influenced statistic hipotesis test. Chi-square test is implemented for nominal attributes whereas Spearman Rank Correlation Coeficient test is used for selecting the numerical attribute. The result of this research is a classifier with accuracy 52.97%.

(4)

Judul : Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB Dengan Metode k-Nearest

Neighbor

Nama : Ninon Nurul Faiza NIM : G64052959

Menyetujui:

Pembimbing I Pembimbing II

Imas Sukaesih Sitanggang, S.Si., M.Kom. Endang Purnama Giri, S.Kom., M.Kom. NIP 197501301998022001 NIP 198210102006041027

Mengetahui

Dekan Fakultas Matematika dan Ilmu Pengetahuan Alam Institut Pertanian Bogor

Dr. Drh. Hasim, DEA NIP 196103281986011002

(5)

PRAKATA

Alhamdulillahi Rabbil ‘alamin, puji dan syukur penulis panjatkan kepada Allah SWT atas

limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB dengan metode k-Nearest Neighbor. Penelitian ini dilaksanakan mulai Februari 2009 sampai dengan Juni 2009, bertempat di Departemen Ilmu Komputer IPB.

Banyak pihak yang memberikan bantuan, dukungan, saran, kritik, serta koreksi dalam menyelesaikan tugas akhir ini. Ucapan terima kasih penulis sampaikan kepada:

1 Bapak, Mamah, Mbak Luthfa, Mbak Tia, Hanip, dan Jijah yang merupakan penyulut semangat bagi penulis. Terima kasih atas kasih sayang yang tulus dan lantunan doa yang tak pernah putus. 2 Ibu Imas S. Sitanggang, S.Si., M.Kom. selaku pembimbing I dan Bapak Endang Purnama Giri,

S.Kom., M.Kom. selaku pembimbing II atas kesediaannya meluangkan waktu untuk memberikan arahan selama pengerjaan tugas akhir.

3 Bapak Sony Hartono Wijaya, S.Kom., M.Kom selaku moderator dan dosen penguji.

4 Seluruh staf pengajar yang telah mendidik, membina, dan mengembangkan wawasan penulis selama menuntut ilmu di Departemen Ilmu Komputer.

5 Anindra Ageng Jihado dan Dimas CKP atas fasilitas yang diberikan saat seminar dan sidang. 6 Yuni Arti, sahabat terbaik yang senantiasa menjadi satu tim mulai dari perkuliahan, PKL, hingga

menyelesaikan tugas akhir.

7 Sri Danuriati, sahabat terbaik yang selama 2 tahun setia menemani penulis dari pagi hingga pagi lagi, senantiasa memberikan semangat dan dukungan kepada penulis, dan bersedia menjadi tim sukses konsumsi selama penulis seminar dan sidang.

8 Zissalwa Hafsari, sahabat terbaik penulis selama 4 tahun yang senantiasa memberikan semangat dan dukungan kepada penulis.

9 Sahabat terbaik lainnya (Vera Yunita, Karina Gusriani, Tsamrul Fuad) yang telah mengisi hari-hari penulis dengan kegembiraan dan kebersamaan.

10 Teman-teman seperjuangan ilkomerz 42, serta pihak lain yang turut membantu baik secara langsung maupun tidak langsung dalam penyelesaian tugas akhir ini.

Semoga karya ilmiah ini bermanfaat.

Bogor, Juni 2009

(6)

RIWAYAT HIDUP

Penulis dilahirkan di Cirebon pada tanggal 14 Maret 1987 sebagai anak ketiga dari lima bersaudara dari pasangan Bapak Nashrudin dan Ibu Komariyah. Penulis menyelesaikan pendidikan menengah atas di SMU Negeri I Cirebon dan lulus pada tahun 2005.

Pada tahun yang sama penulis diterima sebagai mahasiswa Institut Pertanian Bogor melalui jalur Undangan Seleksi Masuk IPB (USMI). Setelah menyelesaikan Tingkat Persiapan Bersama (TPB) pada Tingkat I, tahun 2006 penulis diterima sebagai mahasiswa Departemen Ilmu Komputer, Fakultas Matematika dan Ilmu Pengetahuan Alam, Institut Pertanian Bogor. Tahun 2008, penulis melaksanakan kegiatan praktik kerja lapangan di Badan Pengkajian dan Penerapan Teknologi (BPPT) selama dua bulan. Selain itu, penulis pernah menjadi asisten praktikum pada mata kuliah Sistem Pakar Mayor Ilmu Komputer IPB mulai bulan Februari 2009 sampai dengan bulan Juni 2009.

(7)

DAFTAR ISI

Halaman DAFTAR TABEL ...v DAFTAR GAMBAR ... v DAFTAR LAMPIRAN ... v PENDAHULUAN Latar Belakang ... 1 Tujuan ... 1 Ruang Lingkup ... 1 Manfaat ... 1 TINJAUAN PUSTAKA Klasifikasi dan Prediksi ... 1

k-Nearest Neighbor ... 1

Normalisasi ... 2

k-Fold Cross Validation ... 2

Confusion Matrix ... 2

Koefisien Korelasi Peringkat Spearman ... 2

Uji Kebebasan Chi-Square ... 3

METODE PENELITIAN Pengadaan Data ... 4

Praproses Data ... 4

Penentuan Data Latih dan Data Uji ... 5

Aplikasi Teknik Klasifikasi ... 5

Jenis Percobaan dan Evaluasi Keluaran ... 5

Lingkungan Pengembangan ... 5

HASIL DAN PEMBAHASAN Data... ... 5

Penggabungan dan Pembersihan Data ... 5

Pemilihan Data ... 6

Transformasi Data ... 7

Aplikasi Teknik Klasifikasi ... 7

Penggunaan Classifier pada Data Baru ... 11

KESIMPULAN DAN SARAN Kesimpulan ... 11

Saran... ... 11

DAFTAR PUSTAKA ... 12

(8)

DAFTAR TABEL

Halaman

1 Confusion matrix dua kelas ... 4

2 Tabel kontingensi antara jenis kelamin dan kelas target ... 6

3 Nilai frekuensi harapan dan chi-square atribut jenis kelamin ... 6

4 Hasil uji hipotesis ... 6

5 Jumlah record data latih dan data uji percobaan 1 ... ...7

6 Akurasi klasifikasi percobaan 1 ... 8

7 Matrix confusion untuk percobaan 1 ... 8

8 Akurasi setiap proses uji pada 10-fold cross validation percobaan 2 ... 8

9 Matrix confusion proses uji ke-8 percobaan 2 ... 9

10 Jumlah record data latih dan data uji percobaan 3... ... 9

11 Akurasi klasifikasi percobaan 3.. ... ... 9

12 Matrix confusion untuk percobaan 3.. ... ... 9

13 Akurasi setiap proses uji pada 10-fold cross validation percobaan 4 ... 10

14 Matrix confusion proses uji ke-6 percobaan 4 ... 10

15 Akurasi empat classifier ... 10

16 Data tanpa label kelas ... 10

17 Hasil prediksi data baru tanpa label kelas ... 11

DAFTAR GAMBAR

Halaman 1 Tahapan penelitian ... 4 2 Histogram dengan k=65 ... 8 3 Histogram dengan k=70 ... 8

DAFTAR LAMPIRAN

Halaman 1 Tabel kode jurusan mayor IPB tahun akademik 2007/2008 ... 14

2 Tabel penentuan asal daerah ... 15

3 Tabel kategorisasi atribut nominal dan kelas target ... 16

4 Tabel kontingensi ... 18

(9)

PENDAHULUAN Latar Belakang

Institut Pertanian Bogor (IPB) setiap tahunnya menerima mahasiswa baru dengan berbagai jalur masuk. Pada tingkat I, mahasiswa baru tersebut menjalani Tingkat Persiapan Bersama (TPB) yang merupakan tingkat awal bagi mahasiswa dalam memasuki dunia perkuliahan.

IPB menentukan kelulusan mahasiswa tingkat I berdasarkan hasil akademik mahasiswa pada akhir tingkat I. Mahasiswa yang berhasil lulus tingkat I dapat melanjutkan ke tingkat berikutnya. Analisis data akademik dan data diri mahasiswa IPB tingkat I perlu dilakukan untuk mengetahui tingkat keberhasilan mahasiswa IPB dalam menyelesaikan studi di tingkat I.

Salah satu metode data mining yang dapat digunakan untuk membangun model klasifikasi (classifier) untuk menunjukkan tingkat keberhasilan mahasiswa tingkat I IPB adalah

k-Nearest Neighbor. Tujuan

Tujuan dari penelitian ini adalah:

1 Menerapkan metode k-Nearest Neighbor untuk membangun model klasifikasi dari data akademik (IPK) dan data penerimaan mahasiswa baru (PPMB) IPB.

2 Memprediksi tingkat keberhasilan mahasiswa tingkat I IPB pada tahun selanjutnya dengan model terbaik yang diperoleh.

Ruang Lingkup

Ruang lingkup penelitian ini difokuskan pada:

1 Penggunaan data mahasiswa IPB tahun ajaran 2007 yang berasal dari PPMB dan Direktorat TPB.

2 Pemilihan atribut yang diperkirakan merupakan faktor penentu keberhasilan mahasiswa tingkat I menggunakan uji hipotesis statistika.

3 Penerapan teknik data mining klasifikasi menggunakan metode k-Nearest Neighbor.

Manfaat

Model terbaik yang diperoleh diharapkan dapat digunakan untuk memprediksi tingkat keberhasilan mahasiswa-mahasiswa tingkat I IPB pada tahun selanjutnya, lebih lanjut IPB dapat memberikan treatment terhadap mahasiswa yang diprediksi drop out (memiliki tingkat keberhasilan rendah).

TINJAUAN PUSTAKA Klasifikasi dan Prediksi

Klasifikasi dan prediksi merupakan bentuk analisis data yang dapat digunakan untuk membangun model berdasarkan kelas data yang tersedia atau untuk memprediksi trend data selanjutnya (Han & Kamber 2006).

Klasifikasi terdiri atas dua proses yaitu tahap induktif yang merupakan tahap membangun model klasifikasi dari data latih dan tahap deduktif yang merupakan tahap menerapkan model untuk data uji. Klasifikasi mempunyai dua teknik pembelajaran yaitu

eager learners yang membuat model berdasarkan atribut input yang dipetakan terhadap kelas label setelah data latih tersedia dan lazy learners yang melakukan proses pemodelan dari data latih ketika ada data uji yang akan diklasifikasikan (Tan et al.2006).

k-Nearest Neighbor

Kelemahan dari teknik lazy learners adalah hanya mampu mengklasifikasikan data uji jika dan hanya jika atributnya sesuai dengan salah satu data latih. Jika atribut data uji tidak sesuai dengan data latih maka tidak akan diklasifikasikan. k-Nearest Neighbor

merupakan teknik yang lebih fleksibel karena mampu mengklasifikasikan data uji ke dalam kelas label dengan cara mencari data latih yang relatif sama dengan data uji (Tan et al.2006).

k-Nearest Neighbor merepresentasikan setiap data sebagai titik dalam k-ruang dimensi. Jika ada sebuah data uji maka akan dihitung kedekatan titik data tersebut dengan titik data lainnya pada data latih untuk diklasifikasikan berdasarkan kedekatannya yang didefinisikan dengan ukuran jarak (Han & Kamber 2006).

Analis data mendefinisikan ukuran kedekatan atau ukuran kesamaan menggunakan fungsi jarak. Fungsi jarak yang umumnya digunakan adalah jarak Euclidean (Larose 2005).

...(1) dengan

x=

y=

= selisih data uji dengan data latih m = jumlah atribut

Penentuan klasifikasi data uji berdasar pada kelas utama (majority voting) pada nearest

(10)

neighbor dengan menggunakan rumus berikut

ini:

…(2) dengan v adalah label kelas, yi adalah label kelas untuk satu nearest neighbor dan I adalah fungsi indikator yang mengembalikan nilai 1 jika pernyataan benar dan nilai 0 jika salah (Tan

et al. 2006). Normalisasi

Pada perhitungan jarak Euclidean, atribut berskala panjang dapat mempunyai pengaruh lebih besar daripada atribut berskala pendek. Untuk mencegah hal tersebut perlu dilakukan normalisasi terhadap nilai atribut (Larose 2005).

Salah satu metode normalisasi adalah

min-max normalization yang diterapkan untuk

atribut kontinu. Formula untuk normalisasi atribut X adalah:

…(3) dengan X* adalah nilai setelah dinormalisasi, X adalah nilai sebelum dinormalisasi, min(X) adalah nilai minimum dari atribut, dan max(X) adalah nilai maksimum dari suatu atribut. Untuk atribut kategori digunakan rumus berikut:

…(4)

k-Fold Cross Validation

k-fold cross validation dilakukan untuk

membagi data latih dan data uji. k-fold cross

validation mengulang k-kali untuk membagi

sebuah himpunan contoh secara acak menjadi k

subset yang saling bebas, setiap ulangan

disisakan satu subset untuk pengujian dan

subset lainnya untuk pelatihan (Fu 1994). Pada

metode tersebut, data awal dibagi menjadi k

subset atau “fold” yang saling bebas secara

acak, yaitu S1, S2, …, Sk, dengan ukuran setiap

subset kira-kira sama. Pada iterasi ke-i, subset

Si diperlukan sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Prosedur ini diulang sebanyak k-kali sedemikian sehingga setiap subset digunakan untuk pengujian tepat satu kali. Total akurasi ditentukan dengan menjumlahkan akurasi untuk semua k proses tersebut.

Confusion Matrix

Evaluasi model klasifikasi berdasar pada proporsi antara data uji yang diprediksi secara tepat dengan total seluruh prediksi (Tan et

al.2006). Informasi mengenai klasifikasi sebenarnya (aktual) dengan klasifikasi hasil prediksi disajikan dalam bentuk tabel yang disebut confusion matrix seperti diperlihatkan pada Tabel 1.

Tabel 1 Confusion matrix dua kelas Kelas hasil prediksi

Kelas aktual Kelas1 Kelas2

Kelas1 a b

Kelas2 c d

Jumlah baris dan kolom pada tabel bergantung pada banyaknya kelas target. Akurasi merupakan proporsi jumlah prediksi yang tepat. Contoh perhitungan akurasi untuk tabel tersebut adalah:

…(5) Koefisien Korelasi Peringkat Spearman

Korelasi peringkat merupakan ukuran yang menunjukkan derajat keeratan hubungan diantara dua peubah. Salah satu ukuran asosiasi yang dikenal yaitu Koefisien Korelasi Peringkat

Spearman. Asumsi atau syarat yang harus

dipenuhi pada korelasi ini antara lain (Daniel 1990):

Data terdiri atas contoh acak n berpasangan pengamatan numerik atau bukan numerik. Tiap pasang pengamatan menunjukkan dua

ukuran yang diperoleh dari objek atau individu yang sama.

Langkah perhitungan koefisien korelasi peringkat Spearman (Daniel 1990):

Jika data terdiri atas pengamatan dari suatu populasi bivariabel, ditunjukkan n pasang pengamatan yang diperoleh yaitu (X1,Y1), (X2,Y2), …, (Xn,Yn).

Tiap X diperingkatkan terhadap seluruh pengamatan X lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari X ditunjukkan dengan R(Xi) dan R(Xi) = 1 jika Xi nilai pengamatan terkecil dari X.

Tiap Y diperingkatkan terhadap seluruh pengamatan Y lainnya dari nilai terkecil hingga terbesar. Peringkat nilai ke-i dari Y ditunjukkan dengan R(Yi) dan R(Yi) = 1 jika Yi nilai pengamatan terkecil dari Y. Jika ada nilai yang sama (ties) diantara X

(11)

Jika data bukan numerik, maka harus mampu diperingkatkan.

Hipotesis statistik adalah dugaan mengenai suatu populasi. Hipotesis yang dirumuskan dengan harapan akan ditolak disebut hipotesis nol (H0) sedangkan hipotesis alternatif dilambangkan dengan H1 (Walpole 1992). Hipotesis koefisien korelasi peringkat

Spearman (Daniel 1990):

H0: X dan Y saling bebas

H1: X dan Y berhubungan langsung atau kebalikan

Statistik uji yang digunakan adalah (Daniel 1990):

…(6) …(7) dengan:

di: jumlah kuadrat beda antara peringkat record X ke-i dengan peringkat record Y ke-i R(Xi): peringkat record ke-i pada atribut X R(Yi): peringkat record ke-i pada atribut Y n: banyaknya record

rs: koefisien korelasi, dimana -1 ≤ rs ≤ 1

Jika ada nilai pengamatan yang sama (ties), nilai menggunakan rumus:

…(8) dengan

…(9) …(10) …(11) …(12) dimana

tx=banyaknya pengamatan X yang sama untuk nilai tertentu (untuk suatu peringkat)

ty=banyaknya pengamatan Y yang sama untuk nilai tertentu (untuk suatu peringkat)

Jika n>100, maka gunakan tabel normal (z) dengan:

…

(13)

Benar atau salahnya suatu hipotesis tidak akan pernah diketahui dengan pasti kecuali bila memeriksa seluruh populasi. Namun dalam kebanyakan situasi, hal itu tidak mungkin dilakukan. Oleh karena itu, dapat mengambil contoh acak dari populasi untuk memutuskan apakah hipotesis tersebut kemungkinan besar benar atau salah. Bukti dari contoh yang tidak konsisten dengan hipotesis yang dinyatakan tentu saja membawa pada penolakan hipotesis tersebut sedangkan bukti yang mendukung hipotesis membawa pada penerimaan hipotesis tersebut. Penerimaan suatu hipotesis statistik adalah karena tidak cukup bukti untuk menolaknya. Penolakan suatu hipotesis berarti menyimpulkan bahwa hipotesis itu salah (Walpole 1992). Kaidah keputusan hipotesis koefisien korelasi peringkat Spearman (Daniel 1990):

Jika rs > nilai Tabel koefisien korelasi peringkat Spearman untuk n dan α(2) atau rs < nilai tabel ini, maka tolak H0 dengan α adalah besarnya taraf nyata (tingkat error) dan dapat disimpulkan bahwa antara peubah satu dengan peubah lainnya tidak saling bebas (berpengaruh).

Uji Kebebasan Chi-Square

Hubungan diantara peubah kategorik dapat dilakukan melalui penggunaan uji kebebasan

chi-square. Data dalam pengujian hubungan

disajikan dalam bentuk tabel kontingensi. Bentuk umum tabel kontingensi, yaitu berukuran i baris × j kolom.

 Hipotesis untuk menguji pengaruh antara peubah satu dengan peubah lainnya, yaitu (Freeman 1987):

H0: Pij = Pi.Pj (tidak ada hubungan) H1: Pij ≠ Pi.Pj (terdapat hubungan) dengan

Pi: peluang total atribut ke-i terhadap total data

Pj: peluang total kelas ke-j terhadap total data

 Statistik uji yang digunakan adalah statistik 2_{yang dirumuskan dengan (Freeman 1987)} Eij = n (Pi) (Pj)

= n (ni/n) (nj/n) = [(ni) (nj)]/n

(12)

dengan

n: total data (banyaknya pengamatan) Oij: frekuensi pengamatan

Eij: frekuensi harapan ni: total data atribut ke-i nj: total data kelas ke-j  Kaidah keputusan

Jika 2hitung > 2 (db, ) tabel

chi-square maka tolak H0 dan dapat disimpulkan bahwa antara peubah satu dengan lainnya tidak saling bebas (berpengaruh).

Derajat bebas (db) menunjukkan banyaknya parameter (informasi) minimum yang digunakan. Formula derajat bebas: db = (i 1) (j 1) dengan i=jumlah level atribut dan j=jumlah level kelas target.

METODE PENELITIAN

Penelitian ini dilakukan dalam beberapa tahap seperti diilustrasikan pada Gambar 1.

Pengadaan Data

Banyak studi yang telah lakukan untuk menjelaskan prestasi akademik atau memprediksi kesuksesan akademik dalam dunia pendidikan, salah satunya adalah studi yang dilakukan Parmentier pada tahun 1994.

Parmentier menunjukkan bahwa prestasi akademik mahasiswa dipengaruhi oleh tiga kumpulan faktor, yaitu berbagai hal yang berhubungan dengan latar belakang pribadi mahasiswa (identitas, pendidikan, keluarga, dan lain-lain), keterlibatan atau tingkah laku mahasiswa terhadap pendidikan (partisipasi pada kegiatan pilihan, bertemu dengan profesor untuk bertanya atau memperoleh feedback pada ujian berkala, dan lain-lain), dan persepsi dari mahasiswa (persepsi mahasiswa terhadap konteks akademik, profesornya, kuliah, dan lain-lain) (Superby et al. 2005).

Penelitian ini hanya menggunakan dua faktor Parmentier, yaitu faktor data pribadi mahasiswa dan faktor keterlibatan mahasiswa terhadap pendidikan. Data yang digunakan adalah data mahasiswa TPB IPB tahun ajaran 2007 yang berasal dari Panitia Penerimaan Mahasiswa Baru (PPMB) dan Direktorat Tingkat Persiapan Bersama (Direktorat TPB). Data tersebut terdiri dari dua kelompok data yaitu IPK dan Biodata. Biodata mahasiswa masuk ke dalam faktor data pribadi mahasiswa,

sedangkan IPK masuk ke dalam faktor keterlibatan mahasiswa terhadap pendidikan.

Penentuan akurasi Penentuan data latih dan

data uji Data Uji classifier Pembentukan classifier menggunakan k-Nearest Neihgbor Data Latih Pengadaan Data Praproses Data Data mahasiswa baru tanpa label

kelas Prediksi mahasiswa baru Data mahasiswa baru dengan label kelas

Gambar 1 Tahap penelitian.

Pengelompokan mahasiswa untuk menganalisis tingkat keberhasilan mahasiswa tingkat I dibagi menjadi tiga kategori, yaitu low

risk (memiliki kemungkinan/resiko rendah tidak

lulus), medium risk (dibolehkan lulus berdasarkan ukuran yang diambil perguruan tinggi), dan high risk (memiliki kemungkinan/resiko besar tidak lulus atau drop

out) (Superby et al. 2005). Praproses Data

Tahapan yang dilakukan dalam praproses diantaranya :

Penggabungan data, menggabungkan dua kelompok data yaitu Indeks Prestasi Mahasiswa (IPK) dan Biodata Mahasiswa. Pembersihan data, membuang data yang

missing value.

Pemilihan data, mengambil data yang relevan digunakan untuk proses analisis. Pada penelitian ini pemilihan data menggunakan uji hipotesis statistika yaitu Uji Kebebasan dan Uji Spearman.

(13)

Transformasi data, mengubah data ke bentuk yang dapat di-mine sesuai dengan perangkat lunak yang digunakan pada penelitian.

Penentuan Data Latih dan Data Uji

Dalam penelitian ini data terdapat dua metode uji yang digunakan yaitu pembagian data latih dan data uji dengan proporsi 70% data latih dan 30% data uji dan metode uji 10-fold

cross validation.

Aplikasi Teknik Klasifikasi

Tahapan ini merupakan tahap yang penting karena pada tahap ini teknik klasifikasi diaplikasikan terhadap data. Teknik klasifikasi yang digunakan adalah k-Nearest Neighbor. Langkah-langkah pada metode tersebut yaitu:

Hitung jarak Euclidean: Pada tahap ini setiap data uji akan dihitung jaraknya ke setiap data latih untuk mengetahui ukuran kedekatan atau ukuran kesamaan antara data uji dengan data latih.

Penentuan nilai k: Hal terpenting pada

k-Nearest Neighbor adalah menentukan nilai

yang tepat untuk k yang menunjukan jumlah tetangga terdekat.

Majority voting: Penentuan kelas target untuk data uji berdasarkan kelas yang utama pada tetangga terdekat.

Jenis Percobaan dan Evaluasi Keluaran

Dalam penelitian ini dilakukan beberapa bentuk percobaan yang dibedakan berdasarkan jenis dataset dan metode pembagian data latih dan data uji. Jenis-jenis percobaan tersebut adalah:

Percobaan menggunakan dataset yang proporsi record pada setiap kelas target tidak sama dengan metode uji 70% data latih dan 30% data uji.

Percobaan menggunakan dataset yang proporsi record pada setiap kelas target tidak sama dengan metode uji 10-fold cross

validation.

Percobaan menggunakan dataset yang proporsi record pada setiap kelas target sama dengan metode uji 70% data latih dan 30% data uji.

Percobaan menggunakan dataset yang proporsi record pada setiap kelas target sama dengan metode uji 10-fold cross

validation.

Selanjutnya akan dibentuk tabel confusion

matrix dari setiap classifier untuk mengevaluasi

klasifikasi yang dihasilkan metode k-Nearest

Neighbor.

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk penelitian ini adalah sebagai berikut:

a Perangkat keras berupa komputer personal dengan spesifikasi:

Prosesor Intel(R) Pentium(R) D CPU 2.80 GHz (2 CPUs)

Memori DDR2 512 MB Harddisk 80 GB Keyboard dan mouse Monitor

b Perangkat Lunak

Sistem operasi Windows XP Professional

Microsoft Excel 2007 sebagai media merapihkan data

Microsoft Access 2007 sebagai media penggabungan data, pembersihan data, transformasi data

QtOctave 0.7.2 untuk menjalankan metode k-Nearest neighbor

HASIL DAN PEMBAHASAN Data

Data IPK dengan format spreadsheet Excel terdiri dari 2989 record dan 4 atribut (Nama, NRP, IPK, dan Status Studi). Sedangkan data Biodata dengan format spreadsheet Excel terdiri dari 3010 record dan 41 atribut (NRP, jalur masuk, jenis kelamin, tempat lahir, tanggal lahir, status kawin, warganegara, agama, nama ayah, tahun lahir ayah, pendidikan ayah, pekerjaan ayah, pendapatan orang tua, nama ibu, tahun lahir ibu, pendidikan ibu, pendidikan orang tua, pekerjaan ibu, alamat orang tua, kode pos, wilayah telp orang tua, nomor telp orang tua, nama wali, alamat wali, nama darurat, alamat darurat, nomor telp darurat, nomor SMA, nama SMA, nomor induk, status SMA, tahun ijazah, jumlah mata pelajaran UAN, nilai UAN, prestasi, minat/hobi, listrik, golongan darah, tinggi badan, berat badan, dan riwayat kesehatan).

Penggabungan dan Pembersihan Data

Data IPK dan Biodata digabung menggunakan Microsoft Access berdasarkan kesamaan NRP pada kedua data. Pada data hasil gabungan data IPK dan Biodata ditambahkan

(14)

atribut baru yaitu atribut jurusan dengan ketentuan berdasarkan tabel kode jurusan mayor IPB tahun akademik 2007/2008 (Lampiran 1), penambahan atribut asal daerah berdasarkan asal SMA. Penentuan asal daerah sesuai dengan ketentuan pada Lampiran 2. Selain itu ditambahkan juga kolom kelas target yang ditentukan berdasarkan IPK dengan ketentuan: resiko rendah (IPK≥2.76), resiko sedang (2≤IPK<2.76), dan resiko tinggi (IPK<2).

Selanjutnya dilakukan pemilihan atribut. Atribut yang tidak relevan dan atribut yang banyak mengandung missing value akan dihilangkan. Semua atribut terpilih yang bertipe nominal dan kelas target dikategorikan sesuai dengan ketentuan pada pada Lampiran 3.

Record yang mengandung nilai kosong dan atau

duplikat dihapus. Hasil akhir dari proses penggabungan data IPK dan Biodata terdiri dari 2785 record serta 9 atribut (jurusan, asal daerah, jalur masuk, jenis kelamin, pendapatan orang tua, pendidikan orang tua, nilai uan SMA, hobi, dan riwayat kesehatan) serta kolom kelas target.

Pemilihan Data

Dari 9 atribut yang ada akan dilakukan pemilihan atribut lagi menggunakan uji hipotesis statistika yaitu uji kebebasan

chi-square dan uji korelasi peringkat Spearman. Uji

kebebasan diterapkan untuk atribut yang bertipe nominal (jurusan, asal daerah, jalur masuk, jenis kelamin, pendapatan orang tua, pendidikan orang tua, hobi, dan riwayat kesehatan) sedangkan uji Spearman diterapkan untuk atribut yang bertipe numerik (nilai uan SMA).

Uji kebebasan dan uji Spearman dilakukan untuk melihat hubungan antara setiap atribut dengan kelas target, apakah berpengaruh atau tidak. Jika berdasarkan uji yang dilakukan suatu atribut dinyatakan tidak berpengaruh, maka atribut tersebut dihilangkan, dan sebaliknya. Dalam hal ini, kelas target menunjukkan tingkat keberhasilan mahasiswa.

Berikut merupakan salah satu contoh penerapan uji kebebasan pada atribut jenis kelamin. Penentuan hipotesis:

H0 : jenis kelamin tidak berhubungan dengan kelas target

H1 : jenis kelamin berhubungan dengan kelas target

Sebelum dilakukan uji kebebasan, dibuat tabel kontingensi terlebih dahulu antara setiap atribut dengan kelas target. Tabel kontingensi antara atribut jenis kelamin dan kelas target

dapat dilihat pada Tabel 2, sedangkan tabel kontingensi atribut lainnya dapat dilihat pada Lampiran 4.

Tabel 2 Tabel kontingensi antara jenis kelamin dan kelas target

Jenis kelamin

Kelas target Total

Resiko rendah Resiko sedang Resiko tinggi Perempuan 978 569 139 1686 Laki-laki 517 418 164 1099 Total 1495 987 303 2785

Selanjutnya, dihitung nilai frekuensi harapan (Eij) dan nilai chi-square ( 2) dari setiap tabel kontingensi. Hasil perhitungan Eij dan 2hitung untuk atribut jenis kelamin diperlihatkan pada Tabel 3.

Tabel 3 Nilai frekuensi harapan dan chi-square atribut jenis kelamin

Ei1 Ei2 Ei3 i12 i22 i32 905.052 597.516 183.432 5.879 1.360 10.762 589.947 389.484 119.568 9.020 2.087 16.511 2_hitung 45.622 2_{(db, α) =} 2_{(2, 0.05)} 5.99

Jenis kelamin memiliki 2 level (perempuan dan laki-laki) dan kelas target memiliki 3 level (resiko rendah, resiko sedang, resiko tinggi) maka besarnya derajat bebas=(2-1) (3-1)=2. Nilai α yang digunakan yaitu sebesar 0.05. Berdasarkan Tabel 3, nilai 2hitung> 2(2, α). Oleh karena itu, dapat disimpulkan bahwa pada taraf nyata α = 0.05, peubah jenis kelamin berpengaruh terhadap atribut kelas target. Untuk nilai frekuensi harapan dan chi-square atribut lainnya dapat dilihat pada Lampiran 5.

Berdasarkan uji hipotesis yang telah dilakukan terhadap seluruh atribut, diperoleh hasil yang diperlihatkan pada Tabel 4.

Tabel 4 Hasil uji hipotesis

Atribut Keterangan terhadap

kelas target

Jurusan Berpengaruh

Asal daerah Berpengaruh

Jalur masuk Berpengaruh

Jenis kelamin Berpengaruh

Pendapatan Tidak Berpengaruh

Pendidikan orang tua Tidak Berpengaruh

Hobi Berpengaruh

Riwayat kesehatan Tidak Berpengaruh

(15)

Data akhir yang dihasilkan terdiri dari 2785

record dan 6 atribut yang berdasarkan uji

hipotesis berpengaruh, yaitu: jurusan, asal daerah, jalur masuk, jenis kelamin, hobi, dan nilai uan SMA serta satu kolom kelas target. Dari 6 atribut yang digunakan pada penelitian ini 5 diantaranya merupakan data nominal yaitu: jurusan, asal daerah, jalur masuk, jenis kelamin, dan hobi. Sedangkan atribut nilai uan SMA merupakan data numerik. Pada atribut nilai uan SMA terdapat 10 record yang tidak relevan sehingga data yang digunakan dalam proses

data mining terdiri dari 2775 record dan 6

atribut.

Transformasi Data

Karena adanya perbedaan range antar atribut maka perlu dilakukan normalisasi. Normalisasi yang dilakukan bergantung jenis datanya.

Untuk atribut nilai uan SMA yang bertipe numerik, normalisasi menggunakan min-max

normalization. Nilai maksimum atribut nilai uan

SMA sebesar 29,67 sedangkan nilai minimum sebesar 17.13. Contoh normalisasi untuk record pertama berdasarkan rumus normalisasi (persamaan 3) adalah:

Meskipun atribut nilai uan SMA bertipe numerik tetapi bisa dinormalisasi dengan rumus tersebut karena atribut numerik termasuk dalam atribut kontinu.

Pada penelitian ini perangkat lunak yang digunakan adalah QtOctave sehingga data yang digunakan disimpan dalam format yang dapat diolah dalam QtOctave yaitu format txt atau .m. Octave merupakan suatu perangkat lunak tiruan dari Matlab untuk komputasi numerik dan visualisasi data sedangkan QtOctave merupakan sebuah antar muka grafis yang dikembangkan untuk program Octave. Antar muka grafis ini dikembangkan untuk menambahkan beberapa fasilitas yang tidak terdapat pada program Octave yang langsung dijalankan dari shell

command sehingga program Octave lebih

mudah digunakan. Pada QtOctave, perintah-perintah yang diberikan tidak dimasukkan secara langsung pada baris perintah, melainkan pada kotak teks masukkan yang terdapat pada bagian bawah dari jendela QtOctave.

Aplikasi Teknik Klasifikasi

Dari total data sebanyak 2775 record, diambil 1% data dari setiap kelas target yang akan dihilangkan kelas targetnya sebagai data

tanpa label kelas yang akan diterapkan pada

classifier terbaik. Jadi dataset untuk pembagian

data latih dan data uji sebanyak 2747 record. Pada percobaan pertama, menggunakan seluruh dataset sebanyak 2747 record yang proporsi record pada setiap kelas target tidak sama dan metode uji yang digunakan 70% sebagai data latih sedangkan sisanya sebanyak 30% sebagai data uji. Jumlah record untuk data latih dan data uji dari setiap kelas diperlihatkan Tabel 5.

Tabel 5 Jumlah record data latih dan data uji percobaan 1

Data latih Data uji

Kelas 1 1033 record 443 record

Total 1923 record 824 record

Data tersebut kemudian diterapkan dalam metode k-Nearest Neighbor melalui tahap-tahap berikut ini:

1 Setiap record data uji dihitung jaraknya ke setiap record data latih untuk mengetahui ukuran kedekatan antara data uji dengan data latih. Untuk data bertipe nominal, selisih antara data uji dengan data latih dilihat dari kesamaan nilai kedua data. Jika nilai data uji sama dengan nilai data latih maka selisihnya 0, tetapi jika nilai data uji berbeda dengan nilai data latih maka selisihnya adalah 1. Untuk data bertipe numerik, selisih antara data uji dengan data latih adalah pengurangan nilai data uji dengan nilai data latih.

2 Penentuan nilai k tetangga terdekat pada percobaan 1 dilakukan dengan mencoba nilai k mulai dari 5 sampai 70 dengan selang 5 angka dalam metode k-Nearest Neighbor. Pada setiap percobaan dengan suatu nilai k dihitung akurasi classifier dan sebaran kelas target ditampilkan dalam histogram. Berdasarkan percobaan sampai nilai k=65, diperoleh bahwa sebaran kelas target mencakup ketiga kelas yaitu resiko rendah, sedang, dan tinggi. Jika nilai k dinaikkan menjadi 70, maka sebaran kelas target untuk kelas 3 (resiko tinggi) tidak tercakup seperti diperlihatkan Gambar 2 dan Gambar 3

(16)

Gambar 2 Histogram kelas target dengan k=65.

Gambar 3 Histogram kelas target dengan k=70.

Melihat kondisi tersebut, nilai k akan dipilih antara 5 sampai 65. Akurasi klasifikasi untuk nilai k=5 sampai k=70 diperlihatkan pada Tabel 6.

Tabel 6 Akurasi klasifikasi percobaan 1

k akurasi k akurasi 5 0.2609 40 0.4211 10 0.3095 45 0.4345 15 0.3325 50 0.4454 20 0.3701 55 0.4636 25 0.3908 60 0.4636 30 0.4078 65 0.4757 35 0.4333

Berdasarkan tabel tersebut (Tabel 6) akurasi yang diperoleh selisihnya tidak terlalu jauh berbeda. Hal inilah yang menyebabkan percobaan nilai k menggunakan selang 5 angka. Akurasi paling tinggi diperoleh untuk k=65 sehingga pada percobaan ini classifier terbaik diperoleh pada jumlah tetangga terdekat sebanyak 65.

3 Setiap record data uji dapat ditentukan kelas targetnya berdasarkan kelas utama pada 65 tetangga terdekat.

Untuk mengetahui record yang salah diklasifikasikan digunakan matrix confusion yang diperlihatkan Tabel 7.

Tabel 7 Matrix confusion untuk percobaan 1 Kelas hasil prediksi Kelas

aktual

Kelas 1 Kelas 2 Kelas 3

Kelas 1 351 92 0

Kelas 2 250 41 1

Kelas 3 57 32 0

Berdasarkan tabel tersebut (Tabel 7) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 351 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 92

record, dan tidak ada kelas 1 yang salah

diklasifikasi sebagai kelas 3. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 41

record, kelas 2 yang salah diklasifikasi sebagai

kelas 1 sebanyak 250 record, dan kelas 2 yang salah diklasifikasi sebagai kelas 3 sebanyak 1

record. Tidak ada kelas 3 yang tepat

diklasifikasi sebagai kelas 3, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 57

record, dan kelas 3 yang salah diklasifikasi

sebagai kelas 2 sebanyak 32 record.

Berdasarkan persamaan 5, besarnya akurasi adalah:

akurasi = = 0.4757

Percobaan 2 menggunakan seluruh dataset sebanyak 2747 record yang proporsi record pada setiap kelas target tidak sama, menggunakan tetangga terdekat sebanyak 65 tetapi dengan metode uji 10-fold cross

validation. Data dibagi menjadi 10 subset yang

berbeda dengan jumlah yang hampir sama. Setiap kali sebuah subset digunakan sebagai data uji maka 9 subset lainnya menjadi data latih. Besarnya akurasi pada setiap proses uji diperlihatkan pada Tabel 8.

Tabel 8 Akurasi setiap proses uji pada 10-fold

cross validation percobaan 2

proses uji ke- akurasi

1 0.4436 2 0.5273 3 0.5273 4 0.4073 5 0.5309 6 0.5164 7 0.4873 8 0.5730

(17)

9 0.5292

10 0.4708

Berdasarkan Tabel 8 akurasi terbaik diperoleh pada proses uji ke-8 yaitu sebesar 0.5730. Matrix confusion untuk proses uji ke-8 pada percobaan 2 adalah:

Tabel 9 Matrix confusion proses uji ke-8 percobaan 2

Kelas hasil prediksi Kelas

aktual

Kelas 1 130 17 0

Kelas 2 71 27 0

Kelas 3 17 12 0

record, dan tidak ada kelas 1 yang salah

diklasifikasi sebagai kelas 3. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 27

kelas 1 sebanyak 71 record, dan tidak ada kelas 2 yang salah diklasifikasi sebagai kelas 3. Kelas 3 tidak ada yang tepat diklasifikasikan sebagai kelas 3, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 17 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 12

record. Berdasarkan persamaan 5, besarnya

akurasi adalah: akurasi = = 0.5730

Akurasi rata-rata dari seluruh proses uji dengan 10 data uji yang berbeda pada percobaan kedua diperoleh sebesar 0.5013.

Percobaan 3 menggunakan dataset yang proporsi record pada setiap kelas target seimbang dengan pembagian data 70% data latih dan 30% data uji. Jumlah record untuk data latih dan data uji dari setiap kelas diperlihatkan Tabel 10.

Tabel 10 Jumlah record data latih dan data uji percobaan 3

Data latih Data uji

Total 624 record 267 record

Pada percobaan 3 nilai k atau tetangga terdekat ditentukan lagi seperti halnya pada

percobaan 1 dengan cara mencoba menerapkan nilai k mulai dari 5 sampai 65 dengan selang 5 angka kedalam metode k-Nearest neighbor. Setiap menerapkan suatu nilai k dihitung akurasi klasifikasi tetapi tidak menampilkan histogram sebaran kelas target karena setiap kelas jumlahnya seragam. Akurasi klasifikasi untuk nilai k=5 sampai k=65 diperlihatkan pada Tabel 11.

Tabel 11 Akurasi klasifikasi percobaan 3

k akurasi k akurasi 5 0.4195 40 0.4382 10 0.4607 45 0.4457 15 0.4270 50 0.4644 20 0.4607 55 0.4232 25 0.4457 60 0.4419 30 0.4569 65 0.4494 35 0.4532

Berdasarkan tabel tersebut (Tabel 11) akurasi yang paling tinggi diperoleh untuk k=50 sehingga pada percobaan ini jumlah tetangga terdekat adalah 50.

Untuk mengetahui record yang salah diklasifikasikan digunakan matrix confusion yang diperlihatkan Tabel 12.

Tabel 12 Matrix confusion untuk percobaan 3 Kelas hasil prediksi Kelas

aktual

Kelas 1 56 22 11

Kelas 2 25 42 22

Kelas 3 28 35 26

sebagai kelas 3 sebanyak 11 record. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 42 record, kelas 2 yang salah diklasifikasi sebagai kelas 1 sebanyak 25

sebagai kelas 3 sebanyak 22 record. Kelas 3 yang tepat diklasifikasi sebagai kelas 3 sebanyak 26 record, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 28

sebagai kelas 2 sebanyak 35 record.

Berdasarkan persamaan 5, besarnya akurasi adalah:

(18)

Percobaan 4 dilakukan menggunakan

dataset yang proporsi record pada setiap kelas

target seimbang dengan metode 10-fold cross

validation. Data dibagi menjadi 10 subset yang

berbeda dengan jumlah yang hampir sama. Setiap kali sebuah subset digunakan sebagai data uji maka 9 subset lainnya menjadi data latih. Percobaan ini tetap menggunakan jumlah tetangga terdekat sebanyak 65 karena dataset percobaan 4 sama dengan dataset percobaan 3. Besarnya akurasi pada setiap proses uji diperlihatkan pada Tabel 13.

Tabel 13 Akurasi setiap proses uji pada 10-fold

cross validation percobaan 4

1 0.5843 2 0.4382 3 0.6067 4 0.5333 5 0.5393 6 0.6404 7 0.5169 8 0.4944 9 0.4494 10 0.4944

Berdasarkan Tabel 13 akurasi terbaik diperoleh pada proses uji ke-6 yaitu sebesar 0.6404. Matrix confusion untuk proses uji ke-6 pada percobaan 4 adalah

Tabel 14 Matrix confusion proses uji ke-6 percobaan 4

Kelas hadil prediksi Kelas

actual

Kelas 1 24 5 1

Kelas 2 6 14 9

Kelas 3 2 9 19

Berdasarkan tabel tersebut (Tabel 14) kelas 1 yang tepat diklasifikasi sebagai kelas 1 sebanyak 24 record, kelas 1 yang salah diklasifikasi sebagai kelas 2 sebanyak 5 record, dan kelas 1 yang salah diklasifikasi sebagai kelas 3 sebanyak 1 record. Kelas 2 yang tepat diklasifikasi sebagai kelas 2 sebanyak 14

kelas 1 sebanyak 6 record, dan kelas 2 yang salah diklasifikasi sebagai kelas 3 sebanyak 9

record. Kelas 3 yang tepat diklasifikasi sebagai

kelas 3 sebanyak 19 record, kelas 3 yang salah diklasifikasi sebagai kelas 1 sebanyak 2 record, dan kelas 3 yang salah diklasifikasi sebagai kelas 2 sebanyak 9 record. Berdasarkan persamaan 5, besarnya akurasi adalah:

akurasi = = 0.6404

Akurasi rata-rata dari seluruh proses uji dengan 10 data uji yang berbeda pada percobaan 4 diperoleh sebesar 0.5297.

Setiap percobaan yang dilakukan menghasilkan sebuah classifier, sehingga dari empat percobaan diperoleh empat buah

classifier. Akurasi setiap classifier diperlihatkan

pada Tabel 15.

Tabel 15 Akurasi empat classifier

Percobaan Model yang

dihasilkan akurasi 1 classifier 1 0.4757 2 classifier 2 0.5013 3 classifier 3 0.4644 4 classifier 4 0.5297

Akurasi paling tinggi diperoleh pada

classifier 4 yang dihasilkan dari percobaan 4

yaitu menggunakan dataset 891 record yang proporsi record pada setiap kelas target seimbang dengan metode uji 10-fold cross

validation. Dengan demikian classifier 4

merupakan classifier terbaik yang dihasilkan dengan metode k–Nearest Neighbor.

Penggunaan Classifier pada Data Baru Classifier terbaik yang diperoleh digunakan

untuk memprediksi label kelas pada data yang baru. Pada Tabel 16 diberikan contoh data baru tanpa label kelas yang akan diterapkan pada

classifier.

Tabel 16 Data tanpa label kelas jur jalur jenis

kel

asal hobi NEM

19 1 1 5 1 0.8030 19 1 1 1 1 0.8565 19 1 0 5 1 0.7018 19 1 0 1 1 0.8349 19 1 0 1 1 0.7927 19 1 1 1 2 0.8724 19 1 0 4 1 0.7129 19 1 0 1 1 0.8134 19 1 0 1 4 0.8772 19 1 1 1 2 0.6651 19 1 0 1 1 0.7974 19 1 0 1 1 0.6116 19 1 1 1 1 0.8724 6 2 1 1 1 0.6276 19 1 1 1 1 0.8349 10 1 0 1 1 0.5742 2 1 1 5 1 0.3987 5 1 0 6 1 0.4625 10 1 1 1 1 0.3724 10 2 1 5 2 0.5159

(19)

jur jalur jenis

kel asal hobi NEM

10 1 0 1 1 0.5000 10 2 1 1 2 0.8246 2 1 1 1 1 0.6970 10 1 1 1 1 0.5638 2 1 1 1 4 0.6435 33 1 0 1 1 0.7767 33 1 0 5 1 0.6061 30 1 1 1 1 0.5478

Hasil prediksi data baru tanpa label kelas diperlihatkan pada Tabel 17

Tabel 17 Hasil prediksi data baru tanpa label kelas

record kelas prediksi

1 2 2 1 3 2 4 1 5 1 6 1 7 1 8 1 9 1 10 1 11 1 12 1 13 1 14 3 15 1 16 1 17 2 18 2 19 2 20 3 21 2 22 1 23 1 24 2 25 2 26 1 27 2 28 1

KESIMPULAN DAN SARAN Kesimpulan

Dari beberapa percobaan yang dilakukan terhadap data IPK dan Biodata dengan metode

k-Nearest Neighbor, diperoleh kesimpulan

sebagai berikut:

1 Metode k-Nearest Neighbor dapat digunakan untuk membuat classifier pada

data akademik dan biodata mahasiswa tingkat I IPB.

2 Classifier terbaik dihasilkan dari percobaan 4 yaitu menggunakan dataset 891 record yang proporsi record pada setiap kelas target seimbang dengan metode uji 10-fold

cross validation.

3 Akurasi yang diperoleh pada classifier terbaik hanya sebesar 52.97%.

4 Classifier terbaik yang dihasilkan dapat digunakan untuk memprediksi keberhasilan mahasiswa baru IPB.

5 Atribut yang mempengaruhi tingkat keberhasilan mahasiswa tingkat I IPB berdasarkan uji hipotesis adalah jurusan, jalur masuk, jenis kelamin, asal daerah, hobi, dan nilai uan (NEM).

Saran

Pada penelitian ini masih terdapat beberapa kekurangan yang dapat diperbaiki pada penelitian selanjutnya. Beberapa saran yang dapat dilakukan antara lain:

1. Penggunaan metode lain untuk memperoleh classifier yang lebih baik, karena akurasi classifier dari k-Nearest

Neighbor hanya sebesar 52.97% .

2. Dibangun aplikasi sederhana yang dapat memprediksi keberhasilan mahasiswa baru dengan menerapkan model terbaik.

(20)

DAFTAR PUSTAKA

Daniel, Wayne W. 1990. Applied Non

Parametric Statistics Second Edition.

Boston : PWS-Kend Publ.co.

Freeman, Daniel H. 1987. Applied Categorical

Data Analysis. New York: Marcel Dekker,

Inc.

Fu L. 1994. Neural Network In Computer

Intelligence. Singapura: McGraw Hill.

Han J, Kamber M. 2006. Data Mining Concepts

and Techniques. Morgan Kaufmann Publishers.

Larose, Daniel T. 2005. Discovering Knowledge

in Data: An Introduction to Data Mining.

John Wiley&Sons, Inc.

Superby, J. F, et al. 2005. Determination of

factors influencing the achievement of the first-year university students using data mining methods. Belgia: Production and

Operations Management Department, Catholic University of Mons.

Tan, Pang-Ning,et al. 2006. Introduction to

Data Mining. Boston: Pearson Education,

Inc.

Walpole, Ronald E. 2005. Pengantar Statistika. Ed ke-3. Jakarta: PT Gramedia Pustaka Utama.

(21)

(22)

Lampiran 1 Tabel kode jurusan mayor IPB tahun akademik 2007/2008

Kode NRP Jurusan

A1 Manajemen Sumberdaya Lahan

A2 Agronomi dan Hortikultura

A3 Proteksi Tanaman

A4 Arsitektur Lanskap

B Kedokteran Hewan

C1 Teknologi dan Manajemen Perikanan Budidaya

C2 Manajemen Sumberdaya Perairan

C3 Teknologi Hasil Perairan

C4 Teknologi dan Manajemen Perikanan Tangkap

C5 Ilmu dan Teknologi Kelautan

D Peternakan

E1 Manajemen Hutan

E2 Teknologi Hasil Hutan

E3 Konservasi Sumberdaya Hutan dan Ekowisata

E4 Silvikultur

F1 Teknik Pertanian

F2 Teknologi Pangan

F3 Teknologi Industeri Pertanian

G1 Statistika G2 Meteorologi Terapan G3 Biologi G4 Kimia G5 Matematika G6 Ilmu Komputer G7 Fisika G8 Biokimia

H1 Ekonomi dan Studi Pembangunan

H2 Manajemen

H3 Agribisnis

H4 Ekonomi Sumberdaya dan Lingkungan

I1 Ilmu Gizi

I2 Ilmu Keluarga dan Konsumen

(23)

Lampiran 2 Tabel penentuan asal daerah

Pulau Propinsi

JAWA DKI Jakarta, Banten, Jawa Barat, Jawa Tengah, Jawa Timur, DIY

KALIMANTAN Kalbar, Kalteng, Kaltim, Kalsel

MALUKU Maluku, Maluku utara

NUSA TENGGARA Bali, NTB, NTT

SUMATERA NAD, Sumut, Sumbar, Riau, Jambi, Sumsel, Bengkulu, Lampung, Kep.

Riau, Kep. Bangka belitung

SULAWESI Sulut, Sulsel, Sulteng, Gorontalo

(24)

Lampiran 3 Tabel kategorisasi atribut nominal dan kelas target

Kelas Target kategori

Resiko rendah 1

Resiko sedang 2

Resiko tinggi 3

Jurusan kategori

Manajemen Sumberdaya Lahan 1

Agronomi dan Hortikultura 2

Proteksi Tanaman 3

Arsitektur Lanskap 4

Kedokteran Hewan 5

Teknologi dan Manajemen Perikanan Budidaya 6

Manajemen Sumberdaya Perairan 7

Teknologi Hasil Perairan 8

Teknologi dan Manajemen Perikanan Tangkap 9

Ilmu dan Teknologi Kelautan 10

Peternakan 11

Manajemen Hutan 12

Teknologi Hasil Hutan 13

Konservasi Sumberdaya Hutan dan Ekowisata 14

Silvikultur 15

Teknik Pertanian 16

Teknologi Pangan 17

Teknologi Industeri Pertanian 18

Statistika 19 Meteorologi Terapan 20 Biologi 21 Kimia 22 Matematika 23 Ilmu Komputer 24 Fisika 25 Biokimia 26

Ekonomi dan Studi Pembangunan 27

Manajemen 28

Agribisnis 29

Ekonomi Sumberdaya dan Lingkungan 30

Ilmu Gizi 31

Ilmu Keluarga dan Konsumen 32

Komunikasi dan Pengembangan Masyarakat 33

Jenis kelamin kategori

Perempuan 0

Laki-laki 1

Jalur masuk kategori

USMI 1

SPMB 2

PIN 3

(25)

Lampiran 3 Lanjutan

Pendapatan orang tua kategori

(< 500) 1 (500<=P<1000) 2 (1000<=P<2500) 3 (2500<=P<5000) 4 (5000<=P<7500) 5 (>=7500) 6

Pendidikan orang tua Kategori

Tidak sekolah 0 Tidak tamat SD 1 SD 2 SLTP 3 SLTA 4 Diploma 5 Sarjana muda 6 Sarjana 7 S2/Master 8 S3/Doktor 9

Riwayat kesehatan kategori

Sehat 0 Hepatitis 1 Diabetes 3 Paru-paru 4 Tipus 5 Lain-lain 7 Minat/Hobi kategori Bidang khusus 1 OR 2 Keagamaan 3 Kesenian 4 Bela diri 5

Asal daerah kategori

JAWA 1 KALIMANTAN 2 MALUKU 3 NUSA TENGGARA 4 SUMATERA 5 SULAWESI 6 PAPUA 7 LUAR INDONESIA 8

(26)

Lampiran 4 Tabel kontingensi a Atribut riwayat pendidikan

b Atribut jalur masuk

c Atribut riwayat kesehatan

Riwayat Kesehatan Kelas Target Total Resiko rendah Resiko sedang Resiko tinggi 0 Sehat 1362 913 285 2560 1 Hepatitis 6 1 0 7 2 Jantung 0 1 1 2 3 Diabetes 1 0 0 1 4 Paru-paru 11 3 2 16 5 Tipus 81 49 11 141 6 Hipertensi 1 0 0 1 7 dll 33 20 4 57 Total 1495 987 303 2785

Riwayat pendidikan Kelas Target

Total Resiko rendah Resiko sedang Resiko tinggi 0 9 4 0 13 1 Tidak tamat SD 38 20 6 64 2 SD 102 63 17 182 3 SLTP 89 65 18 172 4 SLTA 550 358 102 1010 5 Diploma 95 62 20 177 6 Sarjana muda 88 56 20 164 7 Sarjana 392 260 89 741 8 S2/Master 100 73 25 198 9 S3/Doktor 32 26 6 64 Total 1495 987 303 2785 Jalur Masuk Kelas Target Total Resiko rendah Resiko sedang Resiko tinggi 1 USMI 1153 652 159 1964 2 SPMB 267 282 114 663 3 PIN 1 1 1 3 6 BUD 74 52 29 155 Total 1495 987 303 2785

(27)

Lampiran 4 Lanjutan d Atribut asal daerah

Asal Daerah Kelas Target Total

Resiko rendah Resiko sedang Resiko tinggi 1 JAWA 1172 725 208 2105 2 KALIMANTAN 19 7 3 29 3 MALUKU 2 1 1 4 4 NUSA TENGGARA 14 15 3 32 5 SUMATERA 264 213 77 554 6 SULAWESI 14 18 11 43 7 PAPUA ₁₀ ₅ ₀ 15 8 LUAR INDONESIA ₀ 3 ₀ ₃ Total 1495 987 303 2785 e Atribut pendapatan

Pendapatan Kelas Target Total

Resiko rendah Resiko sedang Resiko tinggi 1 (< 500) 4 6 1 11 2 (500<=P<1000) 119 68 12 199 3 (1000<=P<2500) 242 143 51 436 4 (2500<=P<5000) 514 385 110 1009 5 (5000<=P<7500) 487 311 101 899 6 (>=7500) 129 74 28 231 Total 1495 987 303 2785 f Atribut hobi

Hobi Kelas Target Total

Resiko rendah Resiko sedang Resiko tinggi 1 Bidang khusus 1272 755 217 2244 2 OR 150 182 66 398 3 Keagamaan 41 25 10 76 4 Kesenian 24 17 7 48 5 Bela diri 8 8 3 19 Total 1495 987 303 2785

(28)

Lampiran 4 Lanjutan g Atribut jurusan

Jurusan Kelas Target Total

Resiko rendah Resiko sedang Resiko tinggi MSL 34 21 16 71 AGH 90 58 18 166 Proteksi 24 30 14 68 Lanskap 31 27 3 61 FKH 73 44 22 139 BDP 33 31 11 75 MSP 16 35 9 60 THP 37 29 8 74 PSP 15 20 13 48 ITK 30 23 7 60 Fapet 72 82 29 183 Menehe 49 40 13 102 THH 30 22 12 64 KSH 39 43 12 94 Silvi 14 18 13 45 TEP 55 39 5 99 TPG 100 9 1 110 TIN 78 24 4 106 STAT 49 10 0 59 GFM 26 17 7 50 BIO 49 36 4 89 KIM 53 15 2 70 MAT 44 19 5 68 KOM 61 20 6 87 FIS 20 23 5 48 BIOKIM 37 20 5 62 IE 40 40 8 88 MENE 43 45 9 97 AGB 74 24 9 107 ESL 41 35 9 85 GIZI 77 28 3 108 IKK 22 17 4 43 KPM 39 43 17 99 Total 1495 987 303 2785

(29)

Lampiran 5 Nilai frekuensi harapan dan chi-square a Atribut riwayat pendidikan

b Atribut jalur masuk

c Atribut riwayat kesehatan

Ei1 Ei2 Ei3 i12 i22 i32 1374.219 907.2603 278.5206 0.108647 0.036311397 0.15073218 3.75763 2.48079 0.76158 1.3381366 0.883887355 0.761579892 1.073609 0.708797 0.217594 1.0736086 0.11963806 2.813303826 0.536804 0.354399 0.108797 0.3996806 0.354398564 0.108797127 8.588869 5.670377 1.740754 0.6768706 1.257573068 0.038608825 75.68941 49.9702 15.34039 0.3726069 0.018836891 1.228066719 2 _hitung _13.57622516 2 (db,α)= 2 (14,0.05) 23.685 Ei1 Ei2 Ei3 i1 2 i2 2 i3 2 6.978456 4.607181 1.414363 0.5856081 0.080020546 1.414362657 34.35548 22.68151 6.963016 0.3866212 0.31701973 0.133189425 97.69838 64.50054 19.80108 0.1893982 0.034908485 0.39624276 92.33034 60.95655 18.71311 0.1201249 0.268215034 0.027174541 542.1724 357.9425 109.8851 0.1130122 9.22096E-06 0.56581632 95.01436 62.72855 19.25709 2.171E-06 0.008461522 0.028660244 88.03591 58.12136 17.84273 1.465E-05 0.077427417 0.260824373 397.772 262.6093 80.61867 0.0837563 0.02592685 0.8713449 106.2873 70.17092 21.54183 0.3719124 0.114060339 0.555149237 34.35548 22.68151 6.963016 0.1614958 0.48552277 0.133189425 2 hitung 5.729480473 2 (db,α)= 2 (18,0.05) 28.869 Ei1 Ei2 Ei3 i12 i22 i32 1054.284 696.0388 213.6776 9.2431626 2.786359222 13.99134008 355.9013 234.9662 72.1325 22.206815 9.414857969 24.30094675 1.610413 1.063196 0.326391 0.2313717 0.003756313 1.390197763 29.13 16.75 4.13 1.74 0.00 11.46 2 hitung 93.47797937 2 (db,α)= 2 (6,0.05) 12.59

(30)

Lampiran 5 Lanjutan d Atribut asal daerah

Ei1 Ei2 Ei3 i12 i22 i32 1129.973 746.009 229.018 1.5631017 0.591651192 1.928907125 15.56732 10.27756 3.155117 0.7569225 1.045227705 0.007626085 2.147217 1.417594 0.435189 0.0100935 0.123014721 0.733043295 17.17774 11.34075 3.481508 0.5878549 1.180704647 0.066594713 297.3896 196.3368 60.27361 3.7488351 1.414213151 4.641702647 23.08259 15.23914 4.678276 3.5738352 0.500182985 8.542502439 8.052065 5.315978 1.631957 0.4712397 0.018781563 1.631956912 1.610413 746.009 0.326391 1.6104129 740.0210409 0.326391382 2 hitung 775.0958369 2 (db,α)= 2(14, 0.05) 23.69 e Atribut pendapatan Ei1 Ei2 Ei3 i12 i22 i32 5.904847 3.898384 1.196768 0.6144856 1.132979393 0.032351961 106.8241 70.52531 21.65063 1.3878295 0.090424436 4.301705534 234.0467 154.5178 47.43555 0.270268 0.858536269 0.267843879 541.6355 357.5882 109.7763 1.4100321 2.101326552 0.000455845 482.5871 318.6043 97.80862 0.0403532 0.181496328 0.104131128 124.0018 81.86607 25.13214 0.2014652 0.755808 0.327255957 2 hitung 14.07874879 2_(db,α)= 2_(10,0.05) 18.31 f Atribut hobi Ei1 Ei2 Ei3 i12 i22 i32 1204.589 795.2704 244.1408 3.7724577 2.039184801 3.017196095 213.6481 141.0506 43.30126 18.961471 11.88829186 11.8987989 40.79713 26.93429 8.268582 0.0010088 0.138911438 0.362554243 25.76661 17.01113 5.222262 0.1211219 7.28349E-06 0.605169159 10.19928 6.733573 2.067145 0.4742335 0.238185306 0.420975542 2 hitung 53.9395675 2 (db,α)= 2 (8,0.05) 15.51

(31)

Lampiran 5 Lanjutan g Atribut jurusan Ei1 Ei2 Ei3 i12 i22 i32 38.11311 25.1623 7.724596 0.4438799 0.688519182 8.865487604 89.10952 58.83016 18.06032 0.0088987 0.011714539 0.000201485 36.50269 24.0991 7.398205 4.2823507 1.444891714 5.891118665 32.74506 21.61831 6.636625 0.0929986 1.339723519 1.992735797 74.6158 49.2614 15.1228 0.03499 0.561947763 3.127454421 40.26032 26.57989 8.159785 1.3092864 0.735042567 0.988607442 32.20826 21.26391 6.527828 8.1565305 8.873251886 0.93624349 39.72352 26.22549 8.050987 0.1867296 0.293526795 0.000322907 25.76661 17.01113 5.222262 4.4988393 0.525146595 11.58371701 32.20826 21.26391 6.527828 0.1514023 0.14174226 0.034153281 98.23519 64.85494 19.90987 7.0065027 4.532471891 4.150221312 54.75404 36.14865 11.09731 0.6046854 0.410329803 0.326226953 34.35548 22.68151 6.963016 0.5521731 0.020477177 3.643709227 50.45961 33.31346 10.22693 2.6025282 2.816547618 0.307401859 24.15619 15.94794 4.895871 4.2700549 0.264044791 13.41475596 53.14363 35.08546 10.77092 0.0648454 0.436751906 3.091981059 59.04847 38.98384 11.96768 28.400861 23.06162593 10.05124238 56.90126 37.56625 11.5325 7.823324 4.899160528 4.919879533 31.67145 20.90952 6.419031 9.4810455 5.692026895 6.419030521 26.84022 17.71993 5.439856 0.0263024 0.029249362 0.447447133 47.77558 31.54147 9.682944 0.03138 0.630232802 3.335334303 37.5763 24.8079 7.615799 6.3308644 3.877591168 4.141022874 36.50269 24.0991 7.398205 1.5398758 1.078913407 0.777402882 46.70197 30.83268 9.46535 4.3774064 3.805924995 1.268695942 25.76661 17.01113 5.222262 1.2905756 2.108416605 0.009459588 33.28187 21.97271 6.745422 0.4153767 0.177110076 0.451639299 47.23878 31.18707 9.574147 1.1092565 2.490380231 0.258815684 52.07002 34.37666 10.55332 1.5798962 3.282905786 0.228630132 57.43806 37.92065 11.64129 4.7755411 5.110260841 0.599282831 45.62837 30.12388 9.247756 0.4694837 0.78929302 0.006637605 57.97487 38.27504 11.75009 6.2433219 2.758365083 6.516041362 23.08259 15.23914 4.678276 0.0507738 0.203465189 0.098339418 53.14363 35.08546 10.77092 3.7641799 1.785354446 3.602432104 2 hitung 298.338239 2 (db,α)= 2 (64,0.05) 79.08