Tahap-Tahap KDD ( Knowledge Discovery in Database )

BAB III ANALISIS DAN PERANCANGAN SISTEM

Kel.1 Kel.2 Kel.3

𝐷𝑎𝑡𝑎 𝑦𝑎𝑛𝑔 𝑠𝑒𝑠𝑢𝑎𝑖 𝑑𝑎𝑡𝑎 𝑡𝑒𝑠𝑡𝑖𝑛𝑔

𝐷𝑎𝑡𝑎 𝑡𝑒𝑠𝑡𝑖𝑛𝑔

Kel.1 Kel.3 Kel.2

training _testing

Kel.2 Kel.3 Kel.1

Tahap-Tahap KDD ( Knowledge Discovery in Database )

BAB III ANALISIS DAN PERANCANGAN SISTEM

3.3 Tahap-Tahap KDD ( Knowledge Discovery in Database )

Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD

(Knowledge Discovery in Database) dengan tahapan seperti berikut ini :

1. Pembersihan data (Data Cleaning)

Pembersihan data merupakan langkah awal dalam proses data

mining. Pembersihan data dilakukan terlebih dahulu sebelum data nilai

rapor dan nilai uji coba nasional yang didapat dari sekolah ditambang.

Pada tahap ini juga dilakukan penyeleksian atribut-atribut yang tidak

relevan terhadap penelitian, seperti nama siswa dan data nilai mata

pelajaran yang tidak dipakai dalam proses prediksi ujian nasional siswa.

Mata pelajaran yang akan digunakan adalah pelajaran Matematika, Bahasa

Indonesia, Bahasa Inggris, Biologi, Kimia, Fisika, Ekonomi, Sosiologi,

dan Geografi. Data mentah yang diperoleh dari sekolah, terdapat beberapa

record yang mempunyai data yang tidak lengkap (missing value).

Data-data siswa yang tidak lengkap serta Data-data-Data-data siswa yang melakukan

pindah sekolah akan dibuang dan tidak akan digunakan pada tahap

selanjutnya. Jumlah data awal yang diperoleh adalah 1074 records untuk 9

mata pelajaran. Jumlah data dapat dilihat pada tabel 3.1 berikut :

Tabel 3.1 Jumlah Data Mentah Sebelum Dilakukan proses Data Cleaning

No. Mata Pelajaran Jumlah record

1. Matematika 179

2. Bahasa Indonesia 179

3. Bahasa Inggris 179

4. Biologi 52

5. Kimia 52

6. Fisika 52

7. Ekonomi 127

8. Sosiologi 127

9. Geografi 127

Jumlah 1074

Tabel 3.2 merupakan hasil dari proses data cleaning.

Tabel 3.2 Jumlah Data Mentah Setelah Dilakukan proses Data Cleaning

No. Mata Pelajaran Jumlah record

1. Matematika 134

2. Bahasa Indonesia 134

3. Bahasa Inggris 134

4. Biologi 38

5. Kimia 38

6. Fisika 38

7. Ekonomi 96

8. Sosiologi 96

9. Geografi 96

Jumlah 804

2. Seleksi data (Data Selection) dan Integrasi data (Data Integration)

Tahap selanjutnya akan dilakukan penyeleksian data-data yang

kurang relevan dengan penelitian. Setelah dilakukan proses penyeleksian

data kemudian tahap selanjutnya melakukan penggabungan seluruh data

yang telah diperoleh yang dikenal dengan integrasi data. Data mentah

yang diperoleh disajikan secara terpisah. Data dari pelajaran yang sama

disatukan dalam satu file yang berekstensi .csv. Setelah disatukan dalam

satu file maka data dapat disimpan dalam tabel pada database. Hasil pada

tahap ini adalah :

a. Nilai Matematika (kelas X semester I sampai kelas XII semester I),

Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

matematika.csv

b. Nilai Bahasa Indonesia (kelas X semester I sampai kelas XII semester

I), Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

indonesia.csv

c. Nilai Bahasa Inggris (kelas X semester I sampai kelas XII semester I),

Nilai Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

d. Nilai Biologi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

biologi.csv

e. Nilai Kimia (kelas X semester I sampai kelas XII semester I), Nilai Uji

Coba Nasional, Nilai Ujian Nasional disimpan dalam file kimia.csv

f. Nilai Fisika (kelas X semester I sampai kelas XII semester I), Nilai Uji

Coba Nasional, Nilai Ujian Nasional disimpan dalam file fisika.csv

g. Nilai Ekonomi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

ekonomi.csv

h. Nilai Sosiologi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

sosiologi.csv

i. Nilai Geografi (kelas X semester I sampai kelas XII semester I), Nilai

Uji Coba Nasional, Nilai Ujian Nasional disimpan dalam file

geografi.csv

3. Transformasi data

Pada tahap transformasi data, data nilai akademik diklasifikasikan

siswa _{sem_1} _{sem_2} _{sem_3} _{sem_4} _{sem_5} _uco _un

Tabel 3.4 Contoh Range Nila_i