Analisis Pengolahan Data - LANDASAN TEORI

BAB II LANDASAN TEORI

3.3. Analisis Pengolahan Data

Sebelum data diolah menggunakan sistem, dilakukan pemrosesan data awal terlebih dahulu sesuai dengan proses KDD. Penjelasannya adalah sebagai berikut:

1. Pembersihan data

Pada tahap ini, dilakukan pembersihan terhadap data-data yang tidak lengkap, kosong atau null, data yang mengandung noise, dan data tidak konsisten. Berikut ini adalah kriteria data yang akan dibersihkan:

1. Mahasiswa yang belum mengambil matakuliah Wajib Peminatan pada semester 4. Data ini dianggap data yang tidak lengkap, sehingga akan dibersihkan dengan cara dihapus.

2. Mahasiswa yang mengambil lebih dari satu matakuliah Wajib Peminatan yang berbeda peminatannya. Data ini termasuk data yang tidak konsisten, sehingga perlu dibersihkan dengan cara memilih salah satu peminatan.

3. Data mahasiswa yang memiliki nilai E dan F akan dianggap sebagai

noise, dan akan dibersihkan dengan cara dihapus. Dalam sistem

perkuliahan di Universitas Sanata Dharma, nilai E dan F merupakan nilai yang wajib diulang, sehingga nilai ini tidak akan digunakan didalam sistem.

4. Data mahasiswa yang bernilai null atau kosong, akan dibersihkan dengan cara dihapus.

Pembersihan data dilakukan setelah proses integrasi dan seleksi data dilakukan. Proses integrasi akan memudahkan proses pencarian data, sementara seleksi data akan mengurangi jumlah data yang akan dibersihkan. Berikut ini rincian data yang dibersihkan:

Tabel 3.2. Jumlah Data Hasil Pembersihan

Jumlah data angkatan 2010

Jumlah data angkatan 2011

Data awal 89 80

Data tidak lengkap 1 -

Data tidak konsisten 2 1

Data noise 2 -

Data kosong - 1

Jumlah data bersih 86 79

2. Integrasi data

Data yang didapat dari universitas Sanata Dharma program studi Teknik Informatika berupa data softcopy berekstensi .xls dan berjumlah 169 data. Didalam file tersebut terdapat data satu mahasiswa, yang berisi data seperti pada Tabel 3.1.. Pada tahap ini dilakukan penggabungan data yang berasal dari berbagai file kedalam satu file dan satu tabel menggunakan aplikasi Ms. Excel 2003. Proses integrasi ini dilakukan agar data terangkum dalam satu tabel yang memudahkan untuk diproses, baik itu dibersihkan, diseleksi, atau ditambang.

3. Penyeleksian Data

Pada tahap ini dilakukan seleksi untuk mengurangi data yang tidak relevan dan redundant. Menurut Tan, Steinbach, dan Kumar (2006), atribut yang tidak relevan adalah atribut yang berisi informasi yang tidak berguna untuk melakukan penambangan data, sedangkan atribut berlebihan (redundant) adalah atribut yang menduplikasi banyak atau semua informasi yang terdapat didalam satu atau lebih atribut lain.

Data yang diterima dari universitas Sanata Dharma program studi Teknik Informatika berisi sekitar 40 atribut, dan tidak semuanya dapat digunakan untuk memprediksi peminatan mahasiswa. Matakuliah yang diajarkan di seluruh Fakultas Sains dan Teknologi (FST) dan matakuliah yang diajarkan diseluruh universitas akan dihapus karena tidak relevan jika digunakan untuk mengklasifikasikan mahasiswa TI. Matakuliah yang digunakan adalah matakuliah yang memiliki kode INF atau mata kuliah wajib, karena matakuliah tersebut adalah matakuliah inti kurikulum.

Setiap mahasiswa akan menentukan peminatan pada semester 4 atau lebih, sehingga data yang akan digunakan sebagai atribut adalah nilai mata kuliah wajib dari semester 1 sampai semester 3. Data yang digunakan pada semester 4 adalah data matakuliah Wajib Peminatan. Data ini digunakan sebagai label kelas untuk mengklasifikasikan mahasiswa. Mahasiswa yang mengambil matakuliah Wajib Peminatan komputasi berarti diklasifikasikan menjadi COM, mahasiswa yang mengambil matakuliah Wajib Peminatan database berarti diklasifikasikan menjadi DBS, dan Mahasiswa yang

mengambil matakuliah Wajib Peminatan jaringan komputer berarti diklasifikasikan menjadi NET.

Untuk menyeleksi data yang tidak relevan dilakukan pengujian koefisien korelasi Pearson’s product moment menggunakan software SPSS statistics (lihat tabel 1 pada lampiran 1). Seperti yang dijelaskan pada bab ii halaman 14, atribut yang berkorlasi adalah atribut yang memiliki nilai signifikan kurang dari 0,05 atau 0,01. Atribut (matakuliah) yang tidak berkorelasi dengan kelas (peminatan) merupakan atribut yang tidak relevan, sehingga dapat dihapus. Dengan demikian, maka atribut yang akan digunakan adalah INF100, INF110, INF114, INF160, INF112, INF115, INF121, INF121P, INF150, INF161, INF220, INF220P, INF221, INF221P, INF232, INF232P, dan INF251.

Karena algoritma NBC dan BBN memiliki cara yang berbeda dalam menangani dependensi atribut, maka penyeleksian atribut untuk keduanya-pun berbeda. Pada algoritma NBC, atribut yang digunakan adalah atribut yang saling independen satu sama lain. Berdasarkan hasil pengujian korelasi koefisien (lihat tabel 2 pada lampiran 1), diketahui terdapat dua kemungkinan pilihan atribut, yang pertama adalah INF 100 dan INF 115, dan yang kedua adalah INF100 dan INF232P. dengan menggunakan pertimbangan jumlah data, maka atribut yang dipilih adalah INF100 dan INF232P.

Penyeleksian atribut pada algoritma BBN dilakukan dengan cara yang sama, yaitu koefisien korelasi. Atribut yang saling berkorelasi satu sama lain merupakan atribut yang redundant, karena memiliki nilai yang hamper sama.

Pada tabel 2 dalam lampiran 1, diketahui bahwa atribut INF110, INF114, INF160, INF112, INF115, INF121, INF121P, INF150, INF161, INF220, INF220P, INF221, INF221P, INF232, dan INF251, adalah atribut yang berkorelasi satu sama lain. Dengan kata lain, atribut tersebut memiliki nilai yang hampir sama. Oleh karena itu, dengan menggunakan satu atribut maka atribut lain sudah terwakili, karena nilainya hampir sama. Dengan menggunakan pertimbangan korelasi, maka atribut yang paling besar korelasinya dengan kelas adalah atribut yang akan digunakan, yaitu INF 121. Dengan demikian, maka topologi network pada BBN dapat dibangun seperti pada Gambar 3.1. INF 100 INF 232P INF 121 Peminatan

4. Transformasi data

Pada tahap ini akan dilakukan transformasi data kedalam format agar dapat dikelola. Data nilai mahasiswa yang diperoleh memiliki format A, B, C, dan D, dan format tersebut sudah dapat diproses oleh algoritma, sehingga data tidak perlu ditransformasi.

5. Data Mining

Pada tahap ini data akan ditambang dengan menggunakan algoritma NBC dan BBN. Langkah awal dari tahap ini adalah menentukan variabel-variabel yang akan digunakan, yaitu variabel-variabel input dan output. Penjabaran dari variabel-variabel tersebut antara lain sebagai berikut:

a. Variabel Input

Variabel-variabel yang digunakan antara lain sebagai berikut:

1. Tabel data dengan atribut: NIM, INF 100, INF 121, INF 232P, PEMINATAN

2. Jumlah fold b. Variabel Output

Variabel output dari sistem ini adalah:

1. Tabel yang berisi data training dan testing hasil cross

validation

2. Hasil klasifikasi algoritma NBC dan BBN

3. Proses perhitungan probabilitas untuk algoritma NBC dan BBN 4. Akurasi algoritma NBC dan BBN

6. Data Evaluasi

Pada tahap ini dilakukan proses pengukuran akurasi algoritma. Proses pengukuran dilakukan dengan menggunakan teknik Cross-Validation dan

Confussion Matrix. Cara pengukurannya adalah dengan membagi data

menjadi n fold, dan masing-masing fold akan mengalami posisi sebagai data

training atau data testing. Nilai n dapat ditentukan sesuai keinginan namun

jumlah data untuk setiap subset harus setara. Sebagai contoh, misalkan terdapat data berjumlah 15 dan nilai n adalah 3, maka data akan dibagi menjadi 3 fold yaitu fold 1, fold 2, dan fold 3, dengan masing-masing fold memiliki 5 data. Setelah itu, kemudian akan dilakukan proses sebagai berikut:

1. Pada tahap ini, fold 1 akan dijadikan data testing, sementara fold 2 dan fold 3 dijadikan data training. Setelah proses training-testing dilakukan, kemudian akurasi kedua algoritma dihitung.

2. Pada tahap ini, fold 2 akan dijadikan data testing, sementara fold 1 dan fold 3 dijadikan data training. Setelah proses training-testing dilakukan, kemudian akurasi kedua algoritma dihitung.

3. Pada tahap ini, fold 3 akan dijadikan data testing, sementara fold 1 dan fold 2 dijadikan data training. Setelah proses training-testing dilakukan, kemudian akurasi kedua algoritma dihitung.

Hasil akurasi keseluruhan diperoleh dari rata-rata akurasi proses 1, 2, dan 3. Teknik Cross-Validation dilakukan untuk data yang berjumlah sedikit. Maka dari itu, semakin sedikit data, sebaiknya semakin banyak jumlah fold, namun hal itu berarti semakin lama proses komputasi yang dibutuhkan.

Dalam dokumen Perbandingan akurasi algoritma Naive Bayes Classifier dan algoritma Bayesian Belief Network dalam mengklasifikasikan mahasiswa Universitas Sanata Dharma Program Studi Teknik Informatika (Halaman 48-55)