Klasifikasi Profil Siswa SMA/SMK yang Masuk PTN (Perguruan Tinggi Negeri) dengan k-nearest Neighbor

(1)

Negeri) dengan k-Nearest Neighbor

Yuandri Trisaputra, Indriyani, Shellafuri Mardika Biru, Muhammad Ervan Departemen Ilmu Komputer, FMIPA, Institut Pertanian Bogor

PENDAHULUAN Latar Belakang

Seleksi Nasional Masuk Perguruan Tinggi Negeri (SNMPTN) merupakan salah satu cara Penerimaan Mahasiswa Baru Program Sarjana pada Perguruan Tinggi Negeri (PTN).

SNMPTN dilakukan oleh masing-masing PTN menggunakan sistem nasional terpadu berdasarkan hasil penelusuran prestasi sekolah dan prestasi akademik siswa baik dalam bentuk rapor maupun portofolio akademik yang lain.

Setiap siswa yang mengikuti SNMPTN dapat memilih maksimal dua Kampus (Kampus Pilihan I dan Kampus Pilihan II) yang ingin mereka daftar dengan maksimal dua program studi. PTN yang menentukan kelulusan siswa berdasarkan hasil akademik selama di Sekolah Menengah Atas dan sederajat. Siswa yang lolos seleksi dapat masuk pada Kampus Pilihan I atau Kampus Pilihan II.

Analis data siswa yang masuk PTN dalam SNMPTN dilakukan untuk mengetahui Kampus Pilihan yang diprediksi akan menerima siswa berdasarkan profil siswa yang mendaftar. Salah satu metode data mining yang dapat digunakan untuk membangun model klasifikasi (classifier) untuk memprediksi kampus pilihan siswa yang masuk PTN adalah k- Nearest Neighbor.

Tujuan

Tujuan dari tugas akhir ini adalah:

1. Menerapkan metode teknik data mining yaitu klasifikasi dengan menggunakan k-Nearest Neighbor sebagai classifier untuk membangun model klasifikasi dari data siswa yang diterima Kampus Pilihan siswa pada SNMPTN.

2. Memprediksi kampus pilihan yang menerima siswa dengan model terbaik yang diperoleh.

Ruang Lingkup

Ruang lingkup tugas akhir ini difokuskan pada:

1. Penggunaan data siswa yang lolos SNMPTN tahun 2012-2013 yang berasal dari web yang menyediakan hasil survei dengan beberapa PTN diantaranya IPB, ITB, ITS, UB, UGM, UI, UNAIR, UNDIP, UNJ, UNNES, UNPAD, UNS, UNSOED, UPI, USU.

2. Penerapan teknik data mining klasifikasi menggunakan metode k -Nearest Neighbor.

3. Hasil prediksi diasumsikan siswa diterima di PTN.

Manfaat

Melalui tugas akhir ini diketahui model terbaik diharapkan dapat digunakan untuk memprediksi siswa yang dapat diterima pada Kampus Pilihan. Disamping itu juga dapat memotivasi siswa untuk menentukan strategi dalam menentukan Kampus Pilihan.

(2)

TINJAUAN PUSTAKA Data Mining

Data mining adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang selama ini tidak diketahui secara manual dari suatu basis data dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data. (Han & Kamber 2006).

Klasifikasi dan Prediksi

Klasifikasi merupakan penempatan objek-objek ke salah satu dari beberapa kategori yang telah ditetapkan sebelumnya. Klasifikasi bertujuan untuk memperoleh aturan klasifikasi yang dapat digunakan untuk memprediksi label kelas dari objek yang tidak yang tidak diketahui label kelasnya. (Li et al 2001)

Klasifikasi terdiri atas dua proses yaitu tahap induktif yang merupakan tahap membangun model klasifikasi dari data latih dan tahap deduktif yang merupakan tahap menerapkan model untuk data uji. Klasifikasi mempunyai dua teknik pembelajaran yaitu eager learner yang membuat model berdasarkan atribut input yang dipetakan terhadap kelas label setelah data latih tersedia dan lazy learner yang melakukan proses pemodelan dari data latih ketika ada data uji yang akan diklasifikasikan (Tan et al. 2006).

k-Nearest Neighbor

Kelemahan dari teknik lazy learners adalah hanya mampu mengklasifikasikan data uji jika dan hanya jika atributnya sesuai dengan salah satu data latih. Jika atribut data uji tidak sesuai dengan data latih maka tidak akan diklasifikasikan (Faiza 2009).

k-Nearest Neighbor merupakan teknik yang lebih fleksibel karena mampu mengklasifikasikan data uji ke dalam kelas label dengan cara mencari data latih yang relatif sama dengan data uji (Tan et al .2006).

k-Nearest Neighbor merepresentasikan setiap data sebagai titik dalam k-ruang dimensi. Jika ada sebuah data uji maka akan dihitung kedekatan titik data tersebut dengan titik data lainnya pada data latih untuk diklasifikasikan berdasarkan kedekatannya yang didefinisikan dengan ukuran jarak (Han & Kamber 2006).

Analis data mendefinisikan ukuran kedekatan atau ukuran kesamaan menggunakan fungsi jarak. Fungsi jarak yang umumnya digunakan adalah jarak Euclidean (Larose 2005).

Penentuan klasifikasi data uji berdasar pada kelas utama (majority voting) pada nearest neighbor (Faiza 2009).

𝑑(𝑥, 𝑦) = √∑ (𝑥_𝑖 _𝑖− 𝑦_𝑖)² … (1)

(3)

dengan:

x = 𝑥₁, 𝑥₂, … , 𝑥_𝑚 y = 𝑦₁, 𝑦₂, … , 𝑦_𝑚

𝑥_𝑖 − 𝑦_𝑖 = selisih data uji dengan data latih m = jumlah atribut

Normalisasi

Normalisasi diperlukan dalam format data yang berbeda. Salah satu metode normalisasi adalah min-max normalization yang diterapkan untuk atribut kontinu. Formula untuk normalisasi atribut X adalah (Faiza 2009):

𝑋^∗= ^{𝑥−min (𝑥)}

max(𝑥)−min (𝑥) … (2)

dengan X* adalah nilai setelah dinormalisasi, X adalah nilai sebelum dinormalisasi, min(X) adalah nilai minimum dari atribut, dan max(X) adalah nilai maksimum dari suatu atribut.

k-Fold Cross Validation

k-fold cross validation dilakukan untuk membagi data latih dan data uji. k-fold cross validation mengulang k-kali untuk membagi sebuah himpunan contoh secara acak menjadi k subset yang saling bebas, setiap ulangan disisakan satu subset untuk pengujian dan subset lainnya untuk pelatihan (Fu 1994). Pada metode tersebut, data awal dibagi menjadi k subset atau “fold” yang saling bebas secara acak, yaitu S1, S2, ..., Sk, dengan ukuran setiap subset kira-kira sama. Pada iterasi ke-i, subset Si diperlukan sebagai data pengujian dan subset lainnya diperlukan sebagai data pelatihan. Prosedur ini diulang sebanyak k-kali sedemikian sehingga setiap subset digunakan untuk pengujian tepat satu kali. Total akurasi ditentukan dengan menjumlahkan akurasi untuk semua k proses tersebut (Ulya 2013).

Confusion Matrix

Evaluasi model klasifikasi berdasar pada proporsi antara data uji yang diprediksi secara tepat dengan total seluruh prediksi (Tan et al.2006). Informasi mengenai klasifikasi sebenarnya (aktual) dengan klasifikasi hasil prediksi disajikan dalam bentuk tabel yang disebut confusion matrix seperti diperlihatkan pada Tabel 1.

Tabel 1 Confusion matrix Kelas Prediksi Kelas

Aktual

Kelas 1 Kelas 2

Kelas 1 A b

(4)

Kelas 2 C d

Jumlah baris dan kolom pada tabel bergantung pada banyaknya kelas target. Akurasi merupakan proporsi jumlah prediksi yang tepat. Contoh perhitungan akurasi untuk tabel tersebut adalah (Faiza 2009).:

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝐽𝑢𝑚𝑙𝑎ℎ 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖 𝑦𝑎𝑛𝑔 𝑡𝑒𝑝𝑎𝑡 𝑇𝑜𝑡𝑎𝑙 𝑝𝑟𝑒𝑑𝑖𝑘𝑠𝑖

𝐴𝑘𝑢𝑟𝑎𝑠𝑖 = 𝑎 + 𝑑

𝑎 + 𝑏 + 𝑐 + 𝐷 … (3)

Imbalance Data

Imbalance data merupakan keadaan data dengan salah satu kelas memiliki porsi yang tidak sebanding dengan kelas yang lainnya. Bentuk ketidakseimbangan tersebut pada beberapa data menunjukkan perbandingan yang sangat signifikan jumlah antar kelasnya, yaitu 100:1, 1000:1, bahkan ada yang mencapai 10 000:1. Hal tersebut berpengaruh pada algoritme klasifikasi yang menghasilkan akurasi prediksi yang baik pada kelas data yang memiliki jumlah instance besar atau kelas mayoritas tetapi menghasilkan akurasi prediksi yang kurang baik terhadap kelas dengan jumlah instance lebih kecil atau kelas minoritas, sehingga dapat pula terjadi penyimpangan prediksi, yaitu kelas minoritas di prediksikan ke dalam kelas mayoritas. Salah satu solusi dari masalah imbalanced data adalah penggunaan metode sampling yang dapat memberikan distribusi data seimbang untuk setiap kelas (He dan Edwardo dalam Ulya 2013).

Sampling

Simple Random Sampling atau Teknik acak sederhana adalah teknik acak yang paling dasar. Prinsip teknik acak sederhana, setiap anggota populasi mempunyai kesempatan yang sama (Eriyanto 2007). Metode sampling untuk menangani masalah pada imbalanced data diantaranya adalah undersampling dan oversampling (He dan Edwardo 2009).

Undersampling adalah proses membuang sebagian data dari kelas mayoritas agar diperoleh data yang seimbang, sedangkan oversampling adalah proses menduplikasi data dari kelas minoritas untuk mendapatkan data dengan kelas yang seimbang. Dalam kasus Undersampling, dapat menyebabkan classifier melewatkan informasi penting karena sebagian data pada kelas mayoritas dihilangkan (He dan Edwardo dalam Ulya 2013).

Teknik oversampling dan undersampling ada beberapa jenis yaitu replikasi, acak dan cluster (Ulya 2013).

(5)

METODE

Penelitian ini dilakukan dalam beberapa tahap sebagai berikut:

Pengadaan Data

Praproses Data

Penentuan Data Latih dan Data Uji

Latih Uji

Pembentukan Classifier dengan k-NN

Classifier

Perhitungan Akurasi

Prediksi Profil Siswa

Profil Siswa tanpa Label Kelas

Profil Siswa dengan

Label Kelas

Gambar 1. Diagram Alur Metode

Pengadaan Data

Data yang digunakan dalam tugas akhir ini adalah Data SNMPTN Undangan tahun 2012 dan 2013 yang didapat dari website http://snmptnppa.blogspot.com. Pengelompokan siswa untuk menganalisis penerimaan kampus pilihan siswa dibagi menjadi 4 kategori, yaitu A1 (Kampus Pilihan I Program Studi I), A2 (Kampus Pilihan I Program Studi II), B1 (Kampus Pilihan II Program Studi I) dan B2 (Kampus Pilihan II Program Studi II).

Praproses Data

Tahapan yang dilakukan dalam praproses diantaranya:

1. Penggabungan data dari data tahun 2013 ke data tahun 2012, sesuai atribut data tahun 2012.

2. Pembersihan data, mengatasi data yang missing value dan normalisasi data.

(6)

3. Pemilihan data dan pengambilan data yang sesuai dengan ruang lingkup penelitian.

4. Transformasi data, mengubah data ke bentuk atau format yang sesuai dengan perangkat lunak yang digunakan.

Penentuan Data Latih dan Data Uji

Dalam penelitian ini data terdapat dua metode uji yang digunakan yaitu pembagian data latih dan data uji dengan proporsi 70% data latih dan 30% data uji dengan simple random sampling setiap kelas dan metode uji 10-fold cross validation.

Klasifikasi dengan k-NN

Tahapan ini merupakan tahap yang penting karena pada tahap ini teknik klasifikasi diaplikasikan terhadap data. Teknik klasifikasi yang digunakan adalah k-Nearest Neighbor.

Langkah-langkah pada metode tersebut yaitu: Hitung jarak Euclidean, Pada tahap ini setiap data uji akan dihitung jaraknya ke setiap data latih untuk mengetahui ukuran kedekatan atau ukuran kesamaan antara data uji dengan data latih. Penentuan nilai k, Hal terpenting pada k- Nearest Neighbor adalah menentukan nilai yang tepat untuk k yang menunjukan jumlah tetangga terdekat. Majority voting, Penentuan kelas target untuk data uji berdasarkan kelas yang utama pada tetangga terdekat (Faiza 2009).

Dalam penelitian ini, klasifikasi dengan k-NN dilakukan 4 kali percobaan, sebagai berikut:

1. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target imbalance dengan metode uji 70% data latih dan 30% data uji.

2. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target imbalance dengan metode uji 10-fold cross validation.

3. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target balance dengan menggunakan oversampling replikasi dengan metode uji 70% data latih dan 30%

data uji.

4. Percobaan menggunakan dataset yang proporsi record pada setiap kelas target balance dengan menggunakan oversampling replikasi dengan metode uji 10-fold cross validation.

Selanjutnya akan dibentuk tabel confusion matrix dari setiap classifier untuk mengevaluasi klasifikasi yang dihasilkan metode k-Nearest Neighbor.

Lingkungan Pengembangan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan dalam penelitian yaitu sebagai berikut:

Perangkat Keras:

1. Processor Intel Core i3 2. Memori 6 GB

3. Harddisk 500 GB 4. Layar 14 inci

5. Mouse dan Keyboard

(7)

Perangkat Lunak:

1. Sistem operasi Windows 8

2. Microsoft Excel 2013 sebagai lembar pengolahan data tambahan, media merapihkan data penggabungan data, pembersihan data, dan transformasi data.

3. Weka versi 3.6.20 untuk melakukan proses data mining k-NN.

HASIL DAN PEMBAHASAN Data

Data SNMPTN 2012 terdiri dari 16 buah file dengan format pdf yang masing-masing terdiri dari 17 atribut yaitu berisi data catatan profil siswa antara lain: Alamat, Asal SMA/SMK/MA, Jurusan SMA/SMK, Kampus Pilihan I, Prodi Prioritas I di Kampus Pilihan I, Prodi Prioritas II di Kampus Pilihan I, Kampus Pilihan II, Prodi Prioritas I di Kampus Pilihan II, Prodi Prioritas II di Kampus Pilihan II, Rata-rata nilai semester 3 (tiga), Rata-rata nilai semester 4 (empat), Rata-rata nilai semester 5 (lima), Rata-rata nilai semester 6 (enam), peringkat semeste 3, peringkat semester 4, peringkat semester 5 dan piagam sedangkan data SNMPTN 2013 dari 13 buah file dengan format pdf yang masing-masing terdiri dari 23 atribut yaitu berisi data catatan profil siswa yang sama seperti data tahun 2012 tetapi dengan tambahan atribut antara lain: Jumlah alumni, Akreditasi, Prestasi sekolah, nilai semester 1, nilai semester 2, peringkat semester 1 dan peringkat semester 2.

Penggabungan dan Pembersihan Data

Data SNMPTN tahun 2013 dan 2012 digabung menggunakan Microsoft Excel.

Atribut yang digunakan mengikuti atribut yang ada pada data tahun 2012. Record yang memiliki missing value diisi dengan mengisi nilai mean untuk atribut kuantitatif/numerik sedangkan modus untuk atribut nominal. Atribut Progam Studi yang tidak diisi maka akan bernilai “Kosong”.

Pemilihan Data

Pengabungan data dan pengisian missing value dilakukan pemilihan record data yang digunakan untuk analisis. Record yang mengandung PTN yang tidak termasuk dalam ruang lingkup di hapus. Data akhir yang dihasilkan terdiri dari 1013 record dan 16 atribut (daftar atribut terlampir).

Transformasi Data

Karena adanya perbedaan range antar atribut maka perlu dilakukan normalisasi.

Normalisasi yang dilakukan bergantung jenis datanya. Untuk atribut rata-rata nilai terdapat nilai yang mempunyai range 1-10 dan range 1-100. Sehingga untuk range 1-10 dilakukan normalisasi min-max ke dalam range 1-100 menggunakan rumus min-max normalization (persamaan 2). Atribut piagam yang berisi nilai piagam yang dimiliki diubah menjadi “Ya”

untuk memiliki nilai piagam dan “Tidak” untuk tidak memiliki nilai piagam.

(8)

Aplikasi Teknik Klasifikasi

Pada percobaan pertama, menggunakan dataset sebanyak 1013 record yang proporsi record pada setiap kelas target tidak sama dengan metode uji 70% data latih dan sisanya sebanyak 30% data uji. Jumlah record yang digunakan terlihat pada tabel 2.

Tabel 2 Jumlah record data pada percobaan 1 Data Latih Data Uji

A1 610 record 235 record

B1 40 record 16 record

Total 730 record 283 record

Penentuan nilai k tetangga terdekat pada percobaan 1 dilakukan dengan mencoba nilai k mulai dari 1 sampai 16 dengan selang 1 angka dalam metode k-Nearest Neighbor.

Pada setiap percobaan dengan suatu nilai k dihitung akurasi classifier dan sebaran kelas target. Berdasarkan percobaan nilai k=1 dengan menggunakan Weka, diperoleh bahwa sebaran kelas target mencakup keempat kelas yaitu A1, A2, B1, B2. Jika nilai k dinaikkan menjadi 2, maka sebaran kelas target untuk kelas 4 (B2) tidak tercakup seperti diperlihatkan tabel 3 dan tabel 4.

Tabel 3 Confusion Matriks dan Sebaran target dengan k=1 A1 A2 B1 B2

A1 209 21 5 0

A2 23 7 0 0

B1 10 1 4 1

B2 1 1 0 0

Sebaran 243 30 9 1

Tabel 4 Confusion Matriks dan Sebaran target dengan k=2 A1 A2 B1 B2

A1 191 43 0 0

A2 17 13 1 0

B1 14 1 1 0

B2 1 1 0 0

Sebaran 223 58 2 0

Melihat kondisi tersebut maka k yang dipilih adalah 1 dengan akurasi 77.7385%, sehingga pada percobaan pertama classifier terbaik diperoleh pada jumlah tetangga terdekat

(9)

1. Setiap record data uji dapat ditentukan kelas targetnya berdasarkan kelas utama pada 1 tetangga terdekat.

Berdasarkan tabel 3, kelas A1 yang tepat diklasifikasikan sebagai kelas A1 sebanyak 209 record, kelas A1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 21 record dan kelas A1 yang salah diklasifikasikan sebagai kelas B1 sebanyak 5 record. Kelas A2 yang tepat diklasifikasikan sebagai kelas A2 sebanyak 7 record dan kelas A2 yang salah diklasifikasikan sebagai kelas A1 sebanyak 23 record. Kelas B1 yang tepat diklasifikasikan sebagai kelas B1 sebanyak 4 record, kelas B1 yang salah diklasifikasikan sebagai kelas A1 sebanyak 10 record, kelas B1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 1 record dan kelas B1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 1 record. Kelas B2 yang salah diklasifikasikan sebagai kelas A1 sebanyak 1 record dan kelas B2 yang salah diklasifikasikan sebagai kelas A2 sebanyak 1 record. Berdasarkan tabel 5, terlihat bahwa kelas sebenarnya B2 dapat diprediksi ke semua kelas. Sedangkan kelas lain tidak semua diprediksi ke semua kelas. Berdasarkan persamaan 3, besarnya akurasi adalah:

Akurasi = ²²⁰

283= 0.777385

Pada percobaan kedua, menggunakan seluruh dataset yang proporsi record pada setiap kelas target tidak sama dengan metode uji 10-fold cross validation. Penentuan nilai k tetangga terdekat pada percobaan kedua dilakukan dengan mencoba nilai k mulai dari 1 sampai 16 dengan selang 1 angka dalam metode k-Nearest Neighbor. Pada setiap percobaan dengan suatu nilai k dihitung akurasi classifier dan sebaran kelas target. Berdasarkan percobaan nilai k=1 dengan menggunakan Weka, diperoleh bahwa sebaran kelas target mencakup keempat kelas yaitu A1, A2, B1, B2. Jika nilai k dinaikkan menjadi 2, maka sebaran kelas target untuk kelas 4 (B2) tidak tercakup seperti diperlihatkan tabel 5 dan Gambar 6.

Tabel 5 Confusion Matriks dan Sebaran target dengan k=1 pada percobaan kedua A1 A2 B1 B2

A1 733 82 28 2

A2 80 22 1 0

B1 37 2 15 2

B2 7 0 2 0

Sebaran 857 106 46 4

Tabel 6 Confusion Matriks dan Sebaran target dengan k=2 pada percobaan kedua A1 A2 B1 B2

A1 704 140 1 0

A2 65 38 0 0

B1 47 3 6 0

B2 7 1 1 0

Sebaran 823 182 8 0

(10)

Melihat kondisi tersebut maka k yang dipilih adalah 1 dengan akurasi 76.0118%, sehingga pada percobaan kedua classifier terbaik diperoleh pada jumlah tetangga terdekat 1. Setiap record data uji dapat ditentukan kelas targetnya berdasarkan kelas utama pada 1 tetangga terdekat.

Berdasarkan tabel 5, kelas A1 yang tepat diklasifikasikan sebagai kelas A1 sebanyak 733 record, kelas A1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 82 record, kelas A1 yang salah diklasifikasikan sebagai kelas B1 sebanyak 28 record dan kelas A1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 2 record. Kelas A2 yang tepat diklasifikasikan sebagai kelas A2 sebanyak 22 record, kelas A2 yang salah diklasifikasikan sebagai kelas A1 sebanyak 80 record dan kelas A2 yang salah diklasifikasikan sebagai kelas B1 sebanyak 1 record. Kelas B1 yang tepat diklasifikasikan sebagai kelas B1 sebanyak 15 record, kelas B1 yang salah diklasifikasikan sebagai kelas A1 sebanyak 37 record, kelas B1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 2 record dan kelas B1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 2 record. Kelas B2 yang salah diklasifikasikan sebagai kelas A1 sebanyak 7 record dan kelas B2 yang salah diklasifikasikan sebagai kelas B1 sebanyak 2 record. Berdasarkan tabel 5, terlihat bahwa kelas sebenarnya B2 diprediksi ke semua kelas. Sedangkan kelas lain tidak semua dapat diprediksi ke semua kelas.

Berdasarkan persamaan 3, besarnya akurasi adalah:

Akurasi = ⁷⁷⁰

1013= 0.760118

Pada percobaan ketiga, menggunakan seluruh dataset yang proporsi record pada setiap kelas target sama dengan menggunakan oversampling replikasi dengan metode uji 70% data latih dan 30% data uji. Jumlah record yang digunakan terlihat pada tabel 7.

Tabel 7 Jumlah record data pada percobaan 3 Data Latih Data Uji

Total 2440 record 940 record

Penentuan nilai k tetangga terdekat pada percobaan ketiga dilakukan dengan mencoba nilai k mulai dari 1 sampai 20 dengan selang 5 angka dalam metode k-Nearest Neighbor menggunakan weka. Akurasi klasifikasi untuk nilai k=1 sampai k=20 diperlihatkan pada Tabel 8.

Tabel 8 Akurasi percobaan ketiga K Akurasi

1 34.3617 % 5 42.0213 % 10 43.7234 % 15 42.3404 % 20 40.3191 %

(11)

Berdasarkan tabel tersebut (Tabel 8) akurasi yang paling tinggi diperoleh untuk k=10 sehingga pada percobaan ini jumlah tetangga terdekat adalah 10. Untuk mengetahui record yang missclassification digunakan matrix confusion yang diperlihatkan pada Tabel 9.

Tabel 9 Confusion Matriks dengan k=10 pada percobaan Ketiga A1 A2 B1 B2

A1 89 94 46 6 A2 24 203 8 0 B1 29 58 119 29 B2 0 235 0 0

Berdasarkan tabel 9, kelas A1 yang tepat diklasifikasikan sebagai kelas A1 sebanyak 89 record, kelas A1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 94 record, kelas A1 yang salah diklasifikasikan sebagai kelas B1 sebanyak 46 record dan kelas A1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 6 record. Kelas A2 yang tepat diklasifikasikan sebagai kelas A2 sebanyak 203 record, kelas A2 yang salah diklasifikasikan sebagai kelas A1 sebanyak 24 record dan kelas A2 yang salah diklasifikasikan sebagai kelas B1 sebanyak 8 record. Kelas B1 yang tepat diklasifikasikan sebagai kelas B1 sebanyak 119 record, kelas B1 yang salah diklasifikasikan sebagai kelas A1 sebanyak 29 record, kelas B1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 58 record dan kelas B1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 29 record. Kelas B2 yang salah diklasifikasikan sebagai kelas A2 sebanyak 235 record. Berdasarkan tabel 9, terlihat bahwa kelas sebenarnya B2 diprediksi ke semua kelas. Sedangkan kelas lain tidak semua dapat diprediksi ke semua kelas. Berdasarkan persamaan 3, besarnya akurasi adalah:

Akurasi = ⁴¹¹

940= 0.437234

Pada percobaan keempat, menggunakan dataset yang proporsi record pada setiap kelas target sama dengan menggunakan oversampling replikasi dengan metode uji 10-fold cross validation menggunakan Weka. Percobaan ini menggunakan k=10 karena dataset sama seperti pada percobaan ketiga. Hasil klasifikasi dengan Weka, diperoleh confusion matrix yang diperlihatkan pada tabel 10.

Tabel 10 Confusion Matriks dengan pada percobaan Keempat A1 A2 B1 B2

A1 259 221 108 22 A2 0 561 41 8 B1 0 0 604 6

B2 0 0 0 610

Berdasarkan tabel 10, kelas A1 yang tepat diklasifikasikan sebagai kelas A1 sebanyak 259 record, kelas A1 yang salah diklasifikasikan sebagai kelas A2 sebanyak 221 record, kelas A1 yang salah diklasifikasikan sebagai kelas B1 sebanyak 108 record dan kelas A1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 22 record. Kelas A2 yang tepat diklasifikasikan sebagai kelas A2 sebanyak 561 record, kelas A2 yang salah diklasifikasikan

(12)

sebagai kelas B1 sebanyak 41 record dan kelas A2 yang salah diklasifikasikan sebagai kelas B2 sebanyak 8 record. Kelas B1 yang tepat diklasifikasikan sebagai kelas B1 sebanyak 604 record dan kelas B1 yang salah diklasifikasikan sebagai kelas B2 sebanyak 6 record. Kelas B2 yang tepat diklasifikasikan sebagai kelas B2 sebanyak 610 record. Semua record pada kelas B2 tepat diprediksi sebagai kelas B2. Berdasarkan persamaan 3, besarnya akurasi adalah:

Akurasi = ²⁰³⁴

2440= 0.833607

Setiap percobaan yang dilakukan menghasilkan sebuah classifier, sehingga dari empat percobaan diperoleh empat buah classifier. Akurasi setiap classifier diperlihatkan pada Tabel 11.

Tabel 11 Akurasi empat classifier

Percobaan Model yang dihasilkan Akurasi

1 Classifier 1 0.777385

Akurasi paling tinggi diperoleh pada classifier 4 yang dihasilkan dari percobaan 4 yaitu menggunakan dataset 2440 record yang proporsi record pada setiap kelas target seimbang yang merupakan hasil Oversampling replikasi dengan metode uji 10-fold cross validation. Dengan demikian classifier 4 merupakan classifier terbaik yang dihasilkan dengan metode k–Nearest Neighbor.

Penggunaan Classifier pada Data Baru untuk klasifikasi

Classifier terbaik yang diperoleh digunakan untuk memprediksi label kelas pada data yang baru. Pada Tabel 12 diberikan contoh data baru tanpa label kelas yang akan diterapkan pada classifier.

Tabel 12 Data baru tanpa kelas

Data 1 Data 2 Data 3 Data 4

Alamat Jombang Bandung Bekasi Surabaya

Jurusan IPS IPA IPA IPA

K1 UB ITB UB ITB

K1P1

HubunganInt

ernasional SITH IlmuKomputer

SekolahFar masi

K1P2 IlmuHukum SITH SistemInformasi Kosong

K2 Kosong IPB IPB IPB

(13)

K2P1 Kosong

TeknologiIn dustriPertan

ian IlmuKomputer Statistika

K2P2 Kosong

Komunikasi

&Pengemba nganMasyar

akat

Komunikasi&Pen gembanganMasya

rakat Kosong

Sem3 82 79 76 87

Sem4 83 78 79 88

Sem5 84 77 70 87

Rank3 55 3 7 1

Rank4 50 3 6 1

Rank5 51 9 9 1

Piagam Tidak Tidak Ya Tidak

Class ? ? ? ?

Hasil prediksi data baru tanpa label kelas diperlihatkan pada Tabel 13.

Tabel 13 Hasil prediksi data baru tanpa label kelas

Record Prediksi

1 A1

2 A2

3 B1

4 A2

KESIMPULAN DAN SARAN Kesimpulan

Dari beberapa percobaan yang telah dilakukan diperoleh kesimpulan sebagai berikut:

1. Metode k-Nearest Neighbor sebagai teknik dalam data mining dapat digunakan untuk classifier pada data SNMPTN.

2. Classifier terbaik dihasilkan dari percobaan 4 dengan dataset 2440 record yang proporsi record pada setiap kelas target seimbang yang merupakan hasil Oversampling replikasi dengan metode uji 10-fold cross validation.

3. Data yang seimbang atau balance lebih baik untuk klasifikasi daripada data yang imbalance.

4. Akurasi yang diperoleh dari classifier terbaik adalah 83.3607 %.

5. Classifier terbaik yang dihasilkan dapat digunakan untuk memprediksi kampus pilihan yang menerima siswa dengan model terbaik yang diperoleh.

(14)

Saran

Beberapa saran yang dapat dilakukan untuk memperbaiki kekurangan dari penelitian ini:

1. Penggunaan metode lain yang menghasilkan classifier lebih baik.

2. Penggunaan data yang lebih besar lagi yang mencakup semua PTN.

DAFTAR PUSTAKA

Eriyanto. 2007. Teknik Sampling Analisis Opini. Yogyakarta (ID): LKiS.

Faiza, Ninon Nurul. 2009. Prediksi Tingkat Keberhasilan Mahasiswa Tingkat I IPB Dengan Metode k-Nearest Neighbor. [Skripsi]. Bogor (ID): IPB

Ulya, Fiqrotul. 2009. KLASIFIKASI DEBITUR KARTU KREDIT MENGGUNAKAN ALGORITME K-NEAREST NEIGHBOR UNTUK KASUS IMBALANCED DATA.

[Skripsi]. Bogor (ID): IPB

Fu L. 1994. Neural Network in Computer Intelligence. Singapura: McGraw Hill.

Han J, Kamber M. 2006. Data Mining Concepts and Techniques Second Edition. San Fransisco (US): Morgan Kaufmann Publisher.

He H, Edwardo AG. 2009. Learning from imbalanced data. IEEE Transactions on Knowledge and Data Engineering. 21(9):1263-1284.

Larose, Daniel T. 2005. Discovering Knowledge in Data: An Introduction to Data Mining.

John Wiley&Sons, Inc.

Tan S, Kumar P, Steinbach M. 2005. Introduction to Data Mining. Addison Wesley.

(15)

Nama

Atribut Keterangan

Jenis Atribut

Alamat Nama Kota/Kabupaten Nominal

Jurusan Jurusan SMA Nominal

K1 Pilihan Kampus I Nominal

K1P1 Pilihan Program Studi I Kampus I Nominal K1P2 Pilihan Program Studi II Kampus I Nominal

K2 Pilihan Kampus II Nominal

K2P1 Pilihan Program Studi I Kampus II Nominal K2P2 Pilihan Program Studi II Kampus II Nominal

Piagam Ya / Tidak Nominal

Class A1 / A2 / B1 / B2 Nominal

Sem3 Rata-rata nilai semester 3 (Range 1-100) Numerik Sem4 Rata-rata nilai semester 4 (Range 1-100) Numerik Sem5 Rata-rata nilai semester 5 (Range 1-100) Numerik

Rank3 Peringkat semester 3 Numerik