BAB III ANALISIS DAN PERANCANGAN SISTEM
3.3 Tahap-Tahap KDD ( Knowledge Discovery in Database )
Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD
(Knowledge Discovery in Database) dengan tahapan seperti berikut ini :
1. Pembersihan data (Data Cleaning)
Pembersihan data merupakan langkah awal dalam proses data
mining. Pembersihan data dilakukan terlebih dahulu sebelum data nilai
rapor dan nilai uji coba nasional yang didapat dari sekolah ditambang.
Pada tahap ini juga dilakukan penyeleksian atribut-atribut yang tidak
relevan terhadap penelitian, seperti nama siswa dan data nilai mata
pelajaran yang tidak dipakai dalam proses prediksi ujian nasional siswa.
Mata pelajaran yang akan digunakan adalah pelajaran Matematika, Bahasa
Indonesia, Bahasa Inggris, Biologi, Kimia, Fisika, Ekonomi, Sosiologi,
dan Geografi. Data mentah yang diperoleh dari sekolah, terdapat beberapa
record yang mempunyai data yang tidak lengkap (missing value).
Data-data siswa yang tidak lengkap serta Data-data-Data-data siswa yang melakukan
pindah sekolah akan dibuang dan tidak akan digunakan pada tahap
selanjutnya. Jumlah data awal yang diperoleh adalah 1074 records untuk 9
mata pelajaran. Jumlah data dapat dilihat pada tabel 3.1 berikut :
Tabel 3.1 Jumlah Data Mentah Sebelum Dilakukan proses Data Cleaning
No. Mata Pelajaran Jumlah record
1. Matematika 179
2. Bahasa Indonesia 179
3. Bahasa Inggris 179
4. Biologi 52
5. Kimia 52
6. Fisika 52
7. Ekonomi 127
8. Sosiologi 127
9. Geografi 127
Jumlah 1074
Tabel 3.2 merupakan hasil dari proses data cleaning.
Tabel 3.2 Jumlah Data Mentah Setelah Dilakukan proses Data Cleaning
No. Mata Pelajaran Jumlah record
1. Matematika 134
2. Bahasa Indonesia 134
3. Bahasa Inggris 134
4. Biologi 38
5. Kimia 38
6. Fisika 38
7. Ekonomi 96
8. Sosiologi 96
9. Geografi 96
Jumlah 804
2. Seleksi data (Data Selection) dan Integrasi data (Data Integration)
Tahap selanjutnya akan dilakukan penyeleksian data-data yang
kurang relevan dengan penelitian. Setelah dilakukan proses penyeleksian
data kemudian tahap selanjutnya melakukan penggabungan seluruh data
yang telah diperoleh yang dikenal dengan integrasi data. Data mentah
yang diperoleh disajikan secara terpisah. Data dari pelajaran yang sama
disatukan dalam satu file yang berekstensi .csv. Setelah disatukan dalam
satu file maka data dapat disimpan dalam tabel pada database. Hasil pada
tahap ini adalah :
a. Nilai Matematika (kelas X semester I sampai kelas XII semester I),
Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
matematika.csv
b. Nilai Bahasa Indonesia (kelas X semester I sampai kelas XII semester
I), Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
indonesia.csv
c. Nilai Bahasa Inggris (kelas X semester I sampai kelas XII semester I),
Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
d. Nilai Biologi (kelas X semester I sampai kelas XII semester I), Nilai
Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
biologi.csv
e. Nilai Kimia (kelas X semester I sampai kelas XII semester I), Nilai Uji
Coba Nasional, Nilai Ujian Nasional disimpan dalam file kimia.csv
f. Nilai Fisika (kelas X semester I sampai kelas XII semester I), Nilai Uji
Coba Nasional, Nilai Ujian Nasional disimpan dalam file fisika.csv
g. Nilai Ekonomi (kelas X semester I sampai kelas XII semester I), Nilai
Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
ekonomi.csv
h. Nilai Sosiologi (kelas X semester I sampai kelas XII semester I), Nilai
Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
sosiologi.csv
i. Nilai Geografi (kelas X semester I sampai kelas XII semester I), Nilai
Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file
geografi.csv
3. Transformasi data
Pada tahap transformasi data, data nilai akademik diklasifikasikan
menjadi A, B, C, D, E dengan jangkauan (range) tertentu. Tabel 3.3 adalah
contoh data dari nilai matematika seorang siswa :
Tabel 3.3 Contoh Data Awal
siswa sem_1 sem_2 sem_3 sem_4 sem_5 uco un
1 57 55 64 60 54 3.5 1.8
2 70 68 67 64 78 3.3 5.5
3 64 58 68 67 71 5.0 4.5
4 60 56 66 69 67 5.3 4.8
5 54 54 60 63 61 3.0 4.3
Keterangan :
Interval untuk atribut sem_1 sampai sem_5 adalah 0-100. Sedangkan
interval untuk atribut uco dan un adalah 0-10. Pada atribut uco dan un
kemudian akan dikalikan 10 agar mempermudah dalam proses
transformasi.
Untuk memudahkan proses penambangan data, maka data diatas
akan dikelompokkan berdasarkan range yang sudah ditetapkan oleh pihak
sekolah seperti pada tabel 3.4 berikut ini :
Tabel 3.4 Contoh Range Nilai
Range nilai Kategori
86-100 A
71-85 B
56-70 C
41-55 D
0-40 E
Tabel 3.5 merupakan hasil transformasi data dari tabel 3.3
Tabel 3.5 Contoh Hasil Transformasi Data
siswa sem_1 sem_2 sem_3 sem_4 sem_5 uco un
1 C D C C D E E
2 C C C C B E D
3 C C C C B D D
4 C C C C C D D
5 D D C C C E D
4. Penerapan teknik data mining
Data-data yang telah diolah pada tahap sebelumnya kemudian
akan diolah menggunakan algoritma naΓ―ve bayes. Data yang digunakan
untuk penelitian terbatas pada beberapa mata pelajaran yang terkait
dengan mata pelajaran yang diujikan pada ujian nasional.
a. Variabel input
Variabel-variabel yang digunakan antara lain sebagai beikut:
a. Nilai beberapa mata pelajaran pada rapor kelas X semester 1
sampai kelas XII semester 1.
i. Untuk jurusan IPA : Matematika, Bahasa Indonesia,
Bahasa Inggris, Kimia, Fisika, dan Biologi.
ii. Untuk jurusan IPS : Matematika, Bahasa Indonesia,
Bahasa Inggris, Ekonomi, Geografi, Sosiologi.
b. Nilai Uji Coba Nasional (UCO).
c. Nilai Ujian Nasional (UN).
b. Variabel output
Proses prediksi akan menghasilkan hasil prediksi nilai ujian
nasional masing-masing siswa sesuai mata pelajaran yang diujiankan
berdasarkan jangkauan (range) nilai UN yang telah ditentukan
sebelumnya. Range nilai ini yang akan menentukan perkiraan nilai UN
yang akan diterima siswa. Pada penelitian ini, range nilai akan menjadi
hasil atau keluaran yang berupa prediksi nilai UN seorang siswa.
5. Evaluasi pola yang ditemukan
Pada tahap ini akan dilakukan proses untuk mengukur akurasi
sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan
teknik k-fold cross validation. K-fold cross validation merupakan salah
satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah
model prediktif. Dalam k-fold cross validation, data akan dikelompokkan
ke dalam k buah partisi/kelompok dengan ukuran yang sama.
Masing-masing kelompok akan mengalami posisi sebagai data testing dan sebagai
data training. (Han&Kamber,2001).
Metode pengukuran cross validation dengan nilai fold = 3
Pengujian I
Kel.1 Kel.2 Kel.3
Pengujian II
Pengujian III
Hal yang sama akan dilakukan pada cross validation dengan nilai fold = 5.
Akhir dari tahap ini adalah diperolehnya presentase akurasi antara data
training dengan data testing, sehingga dapat ditentukan tingkat
keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk
menghitung akurasi dapat dilihat pada rumus (3.1) berikut :
πππ’πππ π =
π·ππ‘π π¦πππ π ππ π’ππ πππ‘π π‘ππ π‘ππππ·ππ‘π π‘ππ π‘πππ
Γ 100% β¦β¦.. (3.1)
Kel.1 Kel.3 Kel.2
training testing
Kel.2 Kel.3 Kel.1