• Tidak ada hasil yang ditemukan

BAB III ANALISIS DAN PERANCANGAN SISTEM

3.3 Tahap-Tahap KDD ( Knowledge Discovery in Database )

Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD

(Knowledge Discovery in Database) dengan tahapan seperti berikut ini :

1. Pembersihan data (Data Cleaning)

Pembersihan data merupakan langkah awal dalam proses data

mining. Pembersihan data dilakukan terlebih dahulu sebelum data nilai

rapor dan nilai uji coba nasional yang didapat dari sekolah ditambang.

Pada tahap ini juga dilakukan penyeleksian atribut-atribut yang tidak

relevan terhadap penelitian, seperti nama siswa dan data nilai mata

pelajaran yang tidak dipakai dalam proses prediksi ujian nasional siswa.

Mata pelajaran yang akan digunakan adalah pelajaran Matematika, Bahasa

Indonesia, Bahasa Inggris, Biologi, Kimia, Fisika, Ekonomi, Sosiologi,

dan Geografi. Data mentah yang diperoleh dari sekolah, terdapat beberapa

record yang mempunyai data yang tidak lengkap (missing value).

Data-data siswa yang tidak lengkap serta Data-data-Data-data siswa yang melakukan

pindah sekolah akan dibuang dan tidak akan digunakan pada tahap

selanjutnya. Jumlah data awal yang diperoleh adalah 1074 records untuk 9

mata pelajaran. Jumlah data dapat dilihat pada tabel 3.1 berikut :

Tabel 3.1 Jumlah Data Mentah Sebelum Dilakukan proses Data Cleaning

No. Mata Pelajaran Jumlah record

1. Matematika 179

2. Bahasa Indonesia 179

3. Bahasa Inggris 179

4. Biologi 52

5. Kimia 52

6. Fisika 52

7. Ekonomi 127

8. Sosiologi 127

9. Geografi 127

Jumlah 1074

Tabel 3.2 merupakan hasil dari proses data cleaning.

Tabel 3.2 Jumlah Data Mentah Setelah Dilakukan proses Data Cleaning

No. Mata Pelajaran Jumlah record

1. Matematika 134

2. Bahasa Indonesia 134

3. Bahasa Inggris 134

4. Biologi 38

5. Kimia 38

6. Fisika 38

7. Ekonomi 96

8. Sosiologi 96

9. Geografi 96

Jumlah 804

2. Seleksi data (Data Selection) dan Integrasi data (Data Integration)

Tahap selanjutnya akan dilakukan penyeleksian data-data yang

kurang relevan dengan penelitian. Setelah dilakukan proses penyeleksian

data kemudian tahap selanjutnya melakukan penggabungan seluruh data

yang telah diperoleh yang dikenal dengan integrasi data. Data mentah

yang diperoleh disajikan secara terpisah. Data dari pelajaran yang sama

disatukan dalam satu file yang berekstensi .csv. Setelah disatukan dalam

satu file maka data dapat disimpan dalam tabel pada database. Hasil pada

tahap ini adalah :

a. Nilai Matematika (kelas X semester I sampai kelas XII semester I),

Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

matematika.csv

b. Nilai Bahasa Indonesia (kelas X semester I sampai kelas XII semester

I), Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

indonesia.csv

c. Nilai Bahasa Inggris (kelas X semester I sampai kelas XII semester I),

Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

d. Nilai Biologi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

biologi.csv

e. Nilai Kimia (kelas X semester I sampai kelas XII semester I), Nilai Uji

Coba Nasional, Nilai Ujian Nasional disimpan dalam file kimia.csv

f. Nilai Fisika (kelas X semester I sampai kelas XII semester I), Nilai Uji

Coba Nasional, Nilai Ujian Nasional disimpan dalam file fisika.csv

g. Nilai Ekonomi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

ekonomi.csv

h. Nilai Sosiologi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

sosiologi.csv

i. Nilai Geografi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

geografi.csv

3. Transformasi data

Pada tahap transformasi data, data nilai akademik diklasifikasikan

menjadi A, B, C, D, E dengan jangkauan (range) tertentu. Tabel 3.3 adalah

contoh data dari nilai matematika seorang siswa :

Tabel 3.3 Contoh Data Awal

siswa sem_1 sem_2 sem_3 sem_4 sem_5 uco un

1 57 55 64 60 54 3.5 1.8

2 70 68 67 64 78 3.3 5.5

3 64 58 68 67 71 5.0 4.5

4 60 56 66 69 67 5.3 4.8

5 54 54 60 63 61 3.0 4.3

Keterangan :

Interval untuk atribut sem_1 sampai sem_5 adalah 0-100. Sedangkan

interval untuk atribut uco dan un adalah 0-10. Pada atribut uco dan un

kemudian akan dikalikan 10 agar mempermudah dalam proses

transformasi.

Untuk memudahkan proses penambangan data, maka data diatas

akan dikelompokkan berdasarkan range yang sudah ditetapkan oleh pihak

sekolah seperti pada tabel 3.4 berikut ini :

Tabel 3.4 Contoh Range Nilai

Range nilai Kategori

86-100 A

71-85 B

56-70 C

41-55 D

0-40 E

Tabel 3.5 merupakan hasil transformasi data dari tabel 3.3

Tabel 3.5 Contoh Hasil Transformasi Data

siswa sem_1 sem_2 sem_3 sem_4 sem_5 uco un

1 C D C C D E E

2 C C C C B E D

3 C C C C B D D

4 C C C C C D D

5 D D C C C E D

4. Penerapan teknik data mining

Data-data yang telah diolah pada tahap sebelumnya kemudian

akan diolah menggunakan algoritma naΓ―ve bayes. Data yang digunakan

untuk penelitian terbatas pada beberapa mata pelajaran yang terkait

dengan mata pelajaran yang diujikan pada ujian nasional.

a. Variabel input

Variabel-variabel yang digunakan antara lain sebagai beikut:

a. Nilai beberapa mata pelajaran pada rapor kelas X semester 1

sampai kelas XII semester 1.

i. Untuk jurusan IPA : Matematika, Bahasa Indonesia,

Bahasa Inggris, Kimia, Fisika, dan Biologi.

ii. Untuk jurusan IPS : Matematika, Bahasa Indonesia,

Bahasa Inggris, Ekonomi, Geografi, Sosiologi.

b. Nilai Uji Coba Nasional (UCO).

c. Nilai Ujian Nasional (UN).

b. Variabel output

Proses prediksi akan menghasilkan hasil prediksi nilai ujian

nasional masing-masing siswa sesuai mata pelajaran yang diujiankan

berdasarkan jangkauan (range) nilai UN yang telah ditentukan

sebelumnya. Range nilai ini yang akan menentukan perkiraan nilai UN

yang akan diterima siswa. Pada penelitian ini, range nilai akan menjadi

hasil atau keluaran yang berupa prediksi nilai UN seorang siswa.

5. Evaluasi pola yang ditemukan

Pada tahap ini akan dilakukan proses untuk mengukur akurasi

sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan

teknik k-fold cross validation. K-fold cross validation merupakan salah

satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah

model prediktif. Dalam k-fold cross validation, data akan dikelompokkan

ke dalam k buah partisi/kelompok dengan ukuran yang sama.

Masing-masing kelompok akan mengalami posisi sebagai data testing dan sebagai

data training. (Han&Kamber,2001).

Metode pengukuran cross validation dengan nilai fold = 3

Pengujian I

Kel.1 Kel.2 Kel.3

Pengujian II

Pengujian III

Hal yang sama akan dilakukan pada cross validation dengan nilai fold = 5.

Akhir dari tahap ini adalah diperolehnya presentase akurasi antara data

training dengan data testing, sehingga dapat ditentukan tingkat

keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk

menghitung akurasi dapat dilihat pada rumus (3.1) berikut :

π‘Žπ‘˜π‘’π‘Ÿπ‘Žπ‘ π‘– =

π·π‘Žπ‘‘π‘Ž π‘¦π‘Žπ‘›π‘” π‘ π‘’π‘ π‘’π‘Žπ‘– π‘‘π‘Žπ‘‘π‘Ž 𝑑𝑒𝑠𝑑𝑖𝑛𝑔

π·π‘Žπ‘‘π‘Ž 𝑑𝑒𝑠𝑑𝑖𝑛𝑔

Γ— 100% …….. (3.1)

Kel.1 Kel.3 Kel.2

training testing

Kel.2 Kel.3 Kel.1

Dokumen terkait