i
dengan Menggunakan Algoritma
Naive Bayesian
Skripsi
Diajukan untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Teknik Jurusan Informatika
Oleh :
Asteria Indharlina
065314052
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
ii
Using
Naive Bayesian
Algorithm
A Thesis
Presented as Partial Fullfillment of the Requirements
To Obtain the Sarjana Teknik Degree
In Study Program of Informatics Engineering
By :
Asteria Indharlina
Student Number : 065314052
INFORMATICS ENGINEERING STUDY PROGRAM
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
iii
SKRIPSI
Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma
dengan Menggunakan Algoritma
Naive Bayesian
Disusun Oleh :
Asteria Indharlina
065314052
Telah Disetujui Oleh :
Pembimbing
iv
Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma
dengan Menggunakan Algoritma
Naive Bayesian
Yang Dipersiapkan dan Disusun Oleh :
Asteria Indharlina
NIM : 065314052
Telah dipertahankan di depan Tim Penguji
Pada tanggal 3 September 2010
Dan dinyatakan memenuhi syarat
Susunan Tim Penguji
Tanda Tangan
Ketua
: P. H. Prima Rosa, S.Si., M.Sc. ---
Sekretaris : Eko Hari Parmadi, S.Si., M.Kom.
---
Anggota : Alb. Agung Hadhiatma, S.T., M.T.
---
Yogyakarta, September 2010
Fakultas Sains dan Teknologi
Universitas
Sanata
Dharma
Dekan,
v
dan yang banyak pengalamannya mengucapkan pengertian.
Orang yang tidak berpengalaman hanya mengetahui sedikit,
Sedangkan orang yang banyak perjalannya
mengumpulkan kecerdikan besar”
Sirakh 34: 9-10
Kupersembahkan Untuk :
Tuhan Yesus Kristus
Keluarga Tercinta
vi
Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak
memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam
kutipan dan daftar pustaka, sebagaimana layaknya karya ilimiah.
Yogyakarta, 27 September 2010
Penulis
vii
Ada beberapa faktor kunci keberhasilan seorang mahasiswa dalam menempuh studi,
diantaranya adalah potensi akademik, motivasi, dan latar belakang mahasiswa tersebut. Potensi
akademik bisa tercermin dalam nilai tes masuk, motivasi bisa tercermin dalam gelombang tes
masuk dan prioritas pilihan prodi. Sedangkan latar belakang akademik bisa tercermin dari
jurusan ketika di SMA.
viii
There are several key success factors for student in their study, such us there academic
potential, their motivations, as well as their backgrounds. Academic potentials could be reflected
in the admission test score, motivations could be reflected in the period of the admision test and
their priority of choice. While the academic background could be reflected in the major program
while they were in the Senior High School.
ix
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma :
Nama
: Asteria Indharlina
NIM :
0653114052
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan
Universitas Sanata Dharma karya ilmiah saya yang berjudul :
“Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan
Menggunakan Algoritma
Naive Bayesian”
Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan
kepada Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam
bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya
secara terbatas, dan mempublikasikannya di internet atau media lain untuk
kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti
kepada saya selama tetap mencatumkan nama saya sebagai penulis.
Demikian pernyataan ini saya buat dengan sebenarnya.
Dibuat di Yogyakarta
Pada tanggal 15 September 2010
Yang menyatakan
x
Dalam nama Bapa, Putra, dan Roh Kudus, penulis selalu diberi kekuatan untuk
berkembang dan menjadi lebih. Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha
Esa, yang telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan tugas
akhir yang berjudul “
Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik
Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan Menggunakan
Algoritma
Naive Bayesian”. Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar
sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata
Dharma.
Dalam kesempatan ini, penulis mengucapkan terimakasih yang sebesar-besarnya kepada :
1.
Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku dosen pembimbing, terimakasih atas segala
bimbingan dan kesabaran dalam mengarahkan dan membimbing penulis dalam
menyelesaikan tugas akhir ini.
2.
Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku kaprodi Teknik Informatika.
3.
Bapak Eko Hari Parmadi, S.Si., M.Kom. dan Bapak Alb. Agung Hadhiatma, S.T., M.T.
selaku dosen penguji.
4.
Seluruh staff pengajar Prodi Teknik Informatika Fakultas Sains dan Teknologi
Universitas Sanata Dharma.
5.
Bapak, Mama, Tiberius Tomo N.S., Paskalia dan semua keluarga yang telah memberikan
semangat serta doa yang tulus.
xi
tidak ditentukan selama bimbingan.
7.
Teman-teman seperjuangan, Robin Steven, Cresensia Devi, Hertartik Clarasita Devy,
Tulus Wardoyo, Yustinus Prima, Widyo Sutoto, terimakasih atas segala bantuan,
dukungan serta kesediaan dalam menciptakan hubungan simbiosis mutualisme dan
mampu menerapkan prinsip
win-win solution
.
8.
Teman-teman prodi Teknik Informatika angkatan 2006, atas kebersamaanya selama
penulis menjalani masa studi.
9.
Serta semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis
dalam menyelesaikan tugas akhir ini.
Penulis menyadari bahwa tugas akhir ini jauh dari sempurna, oleh karena itu kritik dan
saran yang sifatnya membangun sangat penulis harapkan.
Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi pembaca dan
pihak lain yang membutuhkannya.
Penulis
xii
Halaman Judul ………..………
i
Halaman Judul (Inggris) ………
ii
Halaman Persetujuan ………
iii
Halaman Pengesahan ………
iv
Halaman Persembahan ……….………
v
Halaman Pernyataan Keaslian Karya …………..………
vi
Abstrak ……….……….
vii
Abstract ……….
viii
Lembar Pernyataan Persetujuan ………….……….
ix
Kata Pengantar ……….………
x
Daftar Isi ……….……….
xii
Daftar Tabel ………..………
xv
Daftar Gambar ………….……….
xvii
BAB I. Pendahuluan ………..………..
1
A. Latar
Belakang
……….………
1
B. Rumusan
Masalah
……….
2
C. Tujuan
………..………..
3
D. Batasan
Masalah
………..………….………
3
E. Metodologi
Penelitian
……….………..
5
F. Sistematika
Penulisan …………..………
6
BAB II. Landasan Teori ………....………
8
xiii
C. Klasifikasi
Naïve Bayesian
………..
16
D.
k-Fold Cross Validation
……….………..
23
E.
Mengukur Tingkat Keakuratan Penggolong(
Classifier
) …….………
23
F. Analisis
Korelasi
………….……….
25
BAB III. Analisis dan Perancangan Sistem ………..………..………
28
A. Identifikasi
Sistem
……….………..………..
28
B.
Analisis Data Awal ……….………..
29
1. Pembersihan
Data
……….……….………
32
2. Integrasi
Data ………..……….
32
3. Seleksi
Data ………..………
32
4. Transformasi
Data
…….………
36
C.
Perancangan Umum Sistem ……….
37
1. Masukan Sistem ………….………..
37
1.1.
Perancangan Struktur Data …….………..
39
2. Proses Sistem ………..……….
40
3. Keluaran Sistem ……….………..
42
4. Diagram Model
Use Case
……….……….
43
4.1. Narasi
Use Case
………..……….
44
5. Diagram Konteks ………..………
50
6. Diagram Aktivitas ……….……….
51
6.1. Diagram
Aktivitas
Input
Data ………..
51
xiv
6.4.
Diagram Aktivitas Hitung Posterior ………..
52
6.5.
Diagram Aktivitas Simpan
File
Hasil Klasifikasi ………
53
7. Diagram Kelas …….………..
54
8. Diagram Sekuensial ………..……….
55
8.1. Diagram
Sekuensial
Input
Data ………..
55
8.2.
Diagram Sekuensial Detail Atribut ………...
55
8.3. Diagram
Sekuensial
Input
Fold
………..
56
8.4.
Diagram Sekuensial Hitung Posterior ………..
56
8.5.
Diagram Sekuensial Simpan
File
Hasil Klasifikasi ………
57
9.
Perancangan Antar Muka ……….……….
57
BAB IV Implementasi Sistem ………..
64
A.
Spesifikasi
Software
dan
Hardware
………..………..
64
B.
Implementasi
Use Case
……….………..
64
C.
Implementasi Diagram Kelas
……….
68
BAB V Analisis Hasil ………..
93
A.
Analisis Hasil Program ………
93
B.
Kelebihan dan Kekurangan Program ………
108
BAB VI Penutup ………
110
A.
Kesimpulan ………..……… 110
B.
Saran ……….………
110
Daftar Pustaka
xv
Tabel 2.1
Ilustrasi Penggunaan Teorema Bayesian
………...
16
Tabel 2.2
Sekumpulan Data Pelatihan………..
20
Tabel 2.3
Confusion Matrix
………...
24
Tabel 2.4
Tabel Interprestasi Besarnya Nilai Koresi ………
26
Tabel 2.5
Tabel Contoh Hasil Analisis Korelasi di SPSS
………..
26
Tabel 3.1
Tabel Output analisis korelasi dengan menggunakan SPSS ……….
34
Tabel 3.2
Tabel rangkuman analisis korelasi ………..
35
Tabel 3.3
Transformasi Data IPK ……….
36
Tabel 3.4
Deskripsi Masukan untuk Data Pelatihan………
37
Tabel 3.5
Deskripsi Masukan untuk Data Uji……….
38
Tabel 3.6
Tabel
List
Data Mahasiswa ……….
39
Tabel 5.1
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
1………
95
Tabel 5.2
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
2 ………
96
Tabel 5.3
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
3 ……….
97
Tabel 5.4
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
4 ……….
98
Tabel 5.5
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
5 ……….
99
Tabel 5.6
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
6 ………. 100
Tabel 5.7
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
7 ………. 101
Tabel 5.8
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
8 ………. 102
Tabel 5.9
Tabel
Confusion Matrix
untuk Pengujian pada
Fold
9 ………. 103
xvi
xvii
Gambar 2.1 Langkah Penambangan Data………. 11
Gambar 3.1
Use Case
………... 43
Gambar 3.2 Diagram Konteks ……….
50
Gambar 3.3 Diagram Aktivitas
Input
Data ……….
51
Gambar 3.4 Diagram Aktivitas Detail Atribut ………
51
Gambar 3.5 Diagram Aktivitas
Input
Fold
……….. 52
Gambar 3.6 Diagram Aktivitas Hitung Posterior……….
52
Gambar 3.7 Diagram Aktivitas Simpan
File
Hasil Klasifikasi ……….
53
Gambar 3.8 Diagram Kelas ………..
54
Gambar 3.9 Diagram Sekuensial
Input
Data ……….
55
Gambar 3.10 Diagram Sekuensial Detail Atribut ……….
55
Gambar 3.11 Diagram Sekuensial
Input
Fold
………. 56
Gambar 3.12 Diagram Sekuensial Hitung Posterior ……….
56
Gambar 3.13 Diagram Sekuensial Simpan
File
Hasil Klasifikasi ………
57
Gambar 3.14 Halaman Awal ………..
58
Gambar 3.15 Halaman Awal dengan Submenu ………
58
Gambar 3.16 Halaman
Input
Data ………
59
Gambar 3.17 Jendela Pilih
File
Masukan ………..
60
Gambar 3.18 Halaman Proses ………
61
Gambar 3.19 Halaman Proses Lanjutan ………..
61
xviii
Gambar 3.22 Jendela Pertanyaan Konfirmasi Keluar ………..
63
Gambar 4.1 Halaman
Input
Data ………
65
Gambar 4.2 Proses
Input
Data Berhasil……… 66
Gambar 4.3 Lihat Detail Atribut ………
67
1
A. Latar Belakang
Salah satu faktor penentu kesuksesan seorang mahasiswa dalam
menempuh studi di perguruan tinggi adalah potensi akademik. Potensi akademik
bisa terlihat dalam nilai tes masuk akademik. Semakin bagus potensi akademik
seorang mahasiswa mestinya akan semakin sukses ia menempuh studi di
perguruan tinggi. Kesuksesan ini bisa direpresentasikan dengan indeks prestasi
kumulatif. Namun pada kenyataannya tidak semua mahasiswa yang mempunyai
potensi akademik yang bagus mempunyai nilai IPK yang bagus pula. Hal ini
memunculkan dugaan bahwa ada faktor lain yang mempengaruhi kesuksesan
seorang mahasiswa dalam menempuh studi. Faktor lain tersebut bisa berupa
motivasi dan latar belakang mahasiswa. Motivasi bisa tercermin dalam gelombang
test masuk dan prioritas pilihan prodi sedangkan latar belakang mahasiswa bisa
terlihat pada jurusan ketika di SMA.
Maka perlu dijajaki apakah betul faktor yang berhubungan dengan
motivasi dan latar belakang seorang mahasiswa tersebut benar-benar
mempengaruhi keberhasilan studi seorang mahasiswa?
Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan
yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi
akademik mahasiswa dalam bentuk digital. Data digital tersebut bisa
menggunakan algoritma naïve Bayesian sehingga bisa diklasifikasikan data
mahasiswa yang mempunyai prestasi akademik yang kurang/memuaskan/sangat
memuaskan/dengan pujian.
Naïve Bayesian merupakan salah satu metode penambangan data yang
digunakan pada persoalan klasifikasi. Algoritma naïve Bayesian akan menghitung
probabilitas posterior untuk setiap nilai kejadian dari atribut target pada setiap
kasus (sampel data). Selanjutnya, naïve Bayesian akan mengklasifikasikan sampel
data tersebut ke kelas yang mempunyai nilai probabilitas posterior tertinggi. Maka
hal yang akan dilakukan dengan algoritma naïve Bayesian adalah menghitung
probabilitas posterior pada setiap sampel data untuk kelas IPK kurang, IPK
memuaskan, IPK sangat memuaskan, dan IPK dengan pujian.
Pada skripsi ini, penulis akan mengklasifikasikan data mahasiswa yang
mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan
pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi
akademik mahasiswa.
B. Rumusan Masalah
Dari latar belakang di atas, terdapat masalah yaitu :
Bagaimana mengklasifikasikan data mahasiswa yang mempunyai prestasi
kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data
penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa
C. Tujuan
Tujuan pembuatan aplikasi ini adalah untuk :
Mengklasifikasikan data mahasiswa yang mempunyai prestasi
kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data
penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa
dengan menggunakan algoritma naïve Bayesian.
D. Batasan Masalah
Dalam membangun sistem ini terdapat batasan-batasan antara lain :
1. Klasifikasi prestasi mahasiswa hanya berdasarkan data gelombang tes
masuk, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai
final tes masuk lima komponen : nilai tes penalaran verbal, nilai tes
kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan
ruang, nilai tes bahasa Inggris.
2. Data kemahasiswaan yang digunakan adalah data PMB (Penerimaan
Mahasiswa Baru) dan data akademik mahasiswa Teknik Informatika
Fakultas Sains dan Teknologi Universitas Sanata Dharma yang
mengikuti tes melalui jalur reguler dan jalur kerjasama yakni data
gelombang tes masuk mahasiswa, pilihan prodi, prioritas pilihan prodi,
jurusan di SMA dan nilai final tes masuk lima komponen yang terdiri
dari nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes
penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris .
2001, 2002, 2003, 2004, 2005, 2006, 2007.
3. Data IPK yang digunakan adalah data IPK sampai semester 4 dengan
alasan bahwa pada akhir semester 4 terdapat evaluasi sisip program
yang menentukan apakah mahasiswa yang bersangkutan boleh
melanjutkan studi atau harus meninggalkan Program Studi yang
bersangkutan. Mahasiswa boleh melanjutkan studi di Program studi
yang bersangkutan apabila pada akhir semester 4 dapat mengumpulkan
sekurang-kurangnya 40 SKS dengan IPK sekurang-kurangnya 2.00.
Sistem yang dibuat ini dapat digunakan oleh Ketua Prodi Teknik
Informatika atau dosen pembimbing akademik untuk memprediksi
apakah pada evaluasi sisip program seorang mahasiswa boleh
melanjutkan studi atau harus meninggalkan Program studi. Dengan
adanya sistem ini baik Ketua Prodi maupun dosen pembimbing
akademik bisa lebih peka dan kritis terhadap mahasiswa-mahasiswa
yang diprediksikan tidak bisa melanjutkan studi dengan membuat
kebijakan tentang bagaimana langkah yang harus diambil untuk
mengupayakan agar mahasiswa-mahasiswa yang diprediksikan tidak
bisa melanjutkan studinya tersebut bisa melanjutkan studi di Program
Studi Teknik Informatika.
4. Data IPK dikategorikan menjadi IPK memuaskan/sangat
memuaskan/dengan pujian sesuai dengan buku panduan akademik
mahasiswa Teknik Informatika dan dengan tambahan kategori kurang
5. Perangkat lunak yang digunakan untuk membangun sistem ini adalah
adalah : sistem operasi Microsoft Windows XP profesional SP, bahasa
pemrograman Java.
E. Metodologi Penelitian
Metodologi penelitian dilakukan dengan teknik penambangan data.
Langkah-langkahnya adalah sebagai berikut :
1. Pembersihan data yaitu menghilangkan noice dan menghilangkan data
yang tidak konsisten.
2. Integrasi data yaitu menggabungkan data dari bermacam-macam
tempat penyimpanan data ke dalam satu tempat penyimpanan data
yang koheren.
3. Seleksi data yaitu data yang relevan diambil dari basis data. Pada
langkah ini akan dilakukan analisis korelasi dengan SPSS untuk
analisis fitur. Atribut-atribut data akan dicek apakah relevan untuk
dilakukan penambangan data. Atribut yang tidak relevan ataupun
atribut yang mengalami redundansi akan dibuang. Atribut yang
diharapkan adalah atribut yang bersifat independen.
4. Transformasi data yaitu data ditransformasikan ke dalam bentuk yang
tepat untuk ditambang dengan menampilkan kesimpulan operasi.
5. Penambangan data yaitu mengaplikasikan metode yang tepat untuk
mengekstrak pola data, yaitu dengan menggunakan metode naïve
kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak
berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek
yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah
independen dengan nilai atribut lainnya.
6. Evaluasi pola yaitu mengidentifikasi pola yang benar berdasarkan
beberapa pengukuran yang penting.
7. Presentasi pengetahuan yaitu mempresentasikan informasi yang sudah
ditambang kepada pengguna.
F. Sistematika Penulisan
BAB I PENDAHULUAN
Bab ini berisi tentang latar belakang masalah, batasan
masalah, tujuan, batasan masalah, dan metodologi
penelitian.
BAB II LANDASAN TEORI
Bab ini berisi tentang dasar teori yang yang berkaitan
dengan judul/masalah di tugas akhir yaitu teori tentang
penambangan data dan algoritma naive bayesian.
BAB III ANALISIS DAN PERANCANGAN SISTEM
Bab ini berisi tentang cara penerapan konsep dasar yang
telah diuraikan pada bab sebelumnya yaitu pada bab 2
untuk menganalisa dan merancang tentang sistem yang
BAB IV IMPLEMENTASI SISTEM
Bab ini berisi tentang implementasi ke program komputer
berdasarkan hasil perancangan yang telah dibuat.
BAB V ANALISIS HASIL
Bab ini berisi tentang analisis perangkat lunak yang sudah
dibuat, beserta kelebihan dan kekurangan pada sistem.
BAB VI PENUTUP
Bab ini berisi tentang kesimpulan dan saran dari penulisan
8
A. Penambangan Data
Sebuah organisasi pasti mempunyai sekumpulan data dengan jumlah yang besar. Untuk bisa berkompetisi dengan efektif dan bisa mendapatkan banyak keuntungan dari setiap kesempatan, pengambil keputusan perlu mengidentifikasi dan menggunakan informasi yang ada dari sekumpulan data tadi. Maka dari itu diperlukanlah penambangan data.
Penambangan data (data mining) berkenaan dengan mengekstrak atau menambang informasi/pengetahuan dari sekumpulan data dengan jumlah yang sangat besar. Secara fungsional, penambangan data adalah proses dari pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan informasi lainnya (Han&Kamber, 2006).
Secara sederhana, penambangan data adalah langkah-langkah dalam mendapatkan/menemukan pengetahuan (Han&Kamber, 2006). Penemuan pengetahuan ini merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari urutan-urutan sebagai berikut :
1. Pembersihan data (data cleaning)
Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain desain form masukan data yang kurang baik sehingga menyebabkan munculnya banyak field, adanya kesalahan petugas ketika memasukkan data, adanya kesalahan yang disengaja dan adanya data yang busuk. 2. Integrasi data (data integration)
Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam-macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang koheren. Macam-macam tempat penyimpanan data tersebut termasuk multiple database, data cube, atau file flat. Pada langkah ini, ada beberapa hal yang perlu diperhatikan yaitu integrasi skema dan pencocokan objek, redundansi data, deteksi dan resolusi konflik nilai data. Selama melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data. Struktur data perlu diperhatikan ketika mencocokkan atribut dari satu basis data ke basis data lain.
3. Seleksi data (data selection)
4. Transformasi data (data transformation)
Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Yang termasuk dalam langkah transformasi data adalah penghalusan (smooting) yaitu menghilangkan noise yang ada pada data, pengumpulan
(aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi
(generalization) yaitu mengganti data primitif/data level rendah menjadi data level tinggi), normalisasi (normalization) yaitumengemas data atribut ke dalam skala yang kecil, sebagai contoh -1.0 sampai 1.0, dan konstruksi atribut/fitur (attribute construction/feature construction) yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan.
5. Penambangan data (data mining)
Langkah ini adalah langkah yang penting di mana akan diaplikasikan metode yang tepat untuk mengekstrak pola data.
6. Evaluasi pola (pattern evaluation)
Langkahini berguna untuk mengidentifikasi pola yang benar dan menarik. Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.
7. Presentasi pengetahuan (knowledge presentation)
Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.
Pada langkah penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Kemudian pola yang menarik akan direpresentasikan kepada pengguna dan akan disimpan sebagai pengetahuan yang baru. Sebagai catatan, dalam urutan proses di atas, penambangan data hanya terdapat pada satu langkah. Walaupun penambangan data hanya terdapat dalam satu langkah, penambangan data merupakan langkah yang penting karena bisa menemukan pola tersembunyi yang nantinya akan dievaluasi.
Gambar 2.1 Langkah Penambangan Data
Secara umum, pekerjaan penambangan data bisa dikelompokkan menjadi dua kategori, yakni : deskriptif dan prediktif. Tugas penambangan deskriptif adalah menggolongkan sifat-sifat umum data dalam basis data. Sedangkan tugas penambangan prediktif adalah menampilkan kesimpulan dari data yang sekarang ada untuk membuat sebuah prediksi.
Jenis pola yang dapat diketahui dari penambangan data salah satunya adalah klasifikasi dan prediksi. Klasifikasi merupakan model yang dibangun untuk memprediksi label-label kategorikal yang direpresentasikan dengan nilai diskrit. Prediksi numerik merupakan model yang dibangun untuk memprediksi fungsi nilai yang kontinyu (continuous-valued function) ataupun nilai yang terurut (ordered value). Klasifikasi dan prediksi angka ini merupakan jenis permasalahan prediksi (Han&Kamber, 2006).
Klasifikasi data terdiri dari dua proses. Pada proses pertama, classifier
membangun gambaran konsep atau kelas data yang telah ditentukan sebelumnya. Langkah ini dinamakan langkah pembelajaran (learning) atau fase pelatihan. Pada fase pelatihan ini, algoritma klasifikasi yang diterapkan akan membangun sebuah
classifier. Caranya adalah dengan belajar dari sekumpulan data pelatihan yang diambil dari tuple basis data. Karena label kelas dari setiap tuple pelatihan sudah tersedia maka fase ini juga dikenal dengan sebutan fase supervised learning.
digunakan sekumpulan data uji. Data tersebut dipilih secara acak dari sekumpulan data umum. Data yang diuji ini bersifat independen dari data pelatihan, artinya data yang diuji tersebut tidak lagi digunakan untuk membuat classifier.
Salah satu cara penyelesaian masalah-masalah yang berkaitan dengan klasifikasi adalah dengan menggunakan teorema naïve Bayesian yang didasari oleh teorema Bayesian.
B. Teorema Bayesian
Teorema Bayesian mengungkapkan bahwa hasil probabilitas posterior sebanding dengan hasil perkalian antara likelihood dengan probababilitas prior. Probabilitas posterior adalah probabilitas bersyarat dari sebuah hipotesis jika diberikan data. Likelihood adalah probabilitas bersyarat dari sebuah data jika diberikan hipotesis. Probabilitas prior adalah probabilitas bahwa hipotesis itu benar sebelum data terlihat.
Misalkan X adalah tuple data. Dalam istilah Bayesian, X dianggap sebagai bukti atau kumpulan data pelatihan. Anggap H adalah hipotesis. Untuk masalah yang berhubungan dengan klasifikasi, akan ditentukan P(H|X), yaitu probabilitas bersyarat di mana probabilitas hipotesis H ditentukan oleh data X. P(H|X) adalah probabilitas posterior dari kondisi H terhadap X. P(X|H) adalah probabilitas
posterior dari X berdasarkan H. P(H) adalah probabilitas prior dari H. P(X) adalah probabilitas prior dari X. Kalkulasi dari probabilitas-probabilitas tersebut adalah sebagai berikut :
Dimana :
X adalah himpunan data pelatihan. H adalah hipotesis.
P(H|X) adalah probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis H setelah data X muncul.
P(H) adalah probabilitas prior dari hipotesis H yaitu probabilitas bahwa hipotesis H bernilai benar sebelum data X muncul.
P(X) adalah probabilitas dari data X.
P(X|H) adalah probabilitas bersyarat dari X yang berasal dari hipotesis H, dan biasa disebut dengan likelihood. likelihood ini mudah dihitung ketika memberikan nilai 1 saat X dan H konsisten, dan memberikan nilai 0 saat X dan H tidak konsisten.
Contoh, andaikan di sekolah AAA terdapat 60 % siswa putra dan 40% siswa putri. Siswa laki-laki menggunakan celana panjang. Siswa putri menggunakan celana panjang dan rok. Jumlah siswa putri yang menggunakan celana panjang sama dengan jumlah siswa putri yang menggunakan rok. Seorang pengamat memperhatikan siswa secara random dari kejauhan. Pengamat tersebut bisa melihat bahwa ada siswa yang menggunakan celana panjang. Berapa probabilitas bahwa siswa tersebut adalah seorang putri?
a. P(A), probabilitas di mana siswa tersebut adalah siswa putri. Selama pengamat memperhatikan siswa secara acak, artinya semua siswa mempunyai probabilitas yang sama di mata pengamat, probabilitas munculnya siswa putri diantara siswa adalah 40% atau 0.4
b. P(B|A), probablilitas siswa menggunakan celana panjang tergantung pada siswa tersebut adalah siswa putri. Probabilitas ini adalah 0.5
c. P(B), probabilitas siswa yang dipilih secara random adalah siswa yang menggunakan celana panjang. Karena P (B) = P (B | A) P (A) + P (B | A ') P
(A'), ini adalah 0,5 × 0,4 + 1 × 0,6 = 0,8.
Berdasarkan semua informasi di atas, probabilitas pengamat yang mengamati seorang siswa yang memakai celana panjang dapat dihitung sebagai berikut :
| | 0.5 0.40.8 0.25.
celana panjang maka hapus/abaikan 20 siswa yang tidak menggunakan celana panjang dan ambil probabilitas dari (20/100)/(80/100) atau 20/80.
Tabel 2.1 Ilustrasi penggunaan teorima Bayesian
Siswa putri Siswa putra Total
Celana panjang 20 60 80
Rok 20 0 20
Total 40 60 100
C. Klasifikasi Naïve Bayesian
Penggolong (classifier) Naïve Bayesian adalah penggolong yang bersifat statistik. Penggolong ini didasari oleh teorema Bayesian. Penggolong Naïve Bayesian dapat memprediksi probabilitas kelas, seperti probabilitas tuple yang termasuk ke dalam kelas tertentu. Penggolong naïve Bayesian didasarkan pada asumsi bahwa kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah independen dengan nilai atribut lainnya. Maka rumus 2.1 berubah menjadi
|
| | ….. | ……….(2.3)Dimana :
X adalah himpunan data pelatihan. H adalah hipotesis.
probabilitas bersyarat dari hipotesis H setelah data X muncul.
P(H) adalah probabilitas prior dari hipotesis H sebelum X muncul.
P(X) adalah probabilitas dari data X. P(H) mempunyai nilai yang sama dengan kelas yang lain atau irrelevant.
| , | , | adalah probabilitas dari X1, X2, Xn untuk
hipotesis H, biasa disebut dengan likelihood. Karena P(X) irrelevant maka untuk mencari peluang hanya menggunakan rumus
| | | … . . | ……….(2.4)
Jika ada P(Xn|H) yang memiliki nilai=0, maka P(H|X)=0. Dengan demikian
penggolong Naïve Bayesian tidak bisa memprediksi record yang salah satu atributnya memiliki probabilitas bersyarat (likelihood)=0. Untuk mengatasi hal tersebut dilakukan langkah Laplace Estimator. Laplace Estimator dilakukan dengan melakukan perhitungan sebagai berikut
| ………..……….(2.5)
Dimana :
adalah jumlah dari Xn..
Penggolong Naïve Bayesian bekerja seperti berikut :
1. Anggap D adalah kumpulan data pelatihan dari tuple dan D berhubungan dengan label kelas.
2. Andaikan ada m kelas, C1, C2, … , Cm. Jika disediakan tuple X, penggolong
Naïve Bayesian memprediksi X ke dalam kelas yang mempunyai probabilitas posterior tertinggi. Maka penggolong Naïve Bayesian
memprediksi tuple X termasuk ke dalam kelas Ci jika dan hanya jika
P(Ci|X)>P(Cj|X) untuk 1 ≤j≤m, j ≠i. ………..(2.6)
Dengan demikian P(Ci|X) akan dimaksimalkan. Kelas Ci untuk setiap
P(Ci|X) yang dimaksimalkan dinamakan maximum posteriori hypothesis.
Berdasarkan teorema Bayes adalah :
|
| ………(2.7)3. Selama P(X) konstan untuk semua kelas maka hanya P(X|Ci)P(Ci) yang
dimaksimalkan. Jika kelas probabilitas prior tidak diketahui, maka kelas-kelas tersebut diasumsikan sama, yaitu P(C1) = P(C2) = … = P(Cm), oleh
karena itu P(X|Ci) akan dimaksimalkan. Jika tidak, P(X|Ci)P(Ci) yang akan
dimaksimalkan.
4. Misalkan data terdiri dari banyak atribut. Untuk mengurangi kerumitan komputasi dalam mengevaluasi P(X|Ci), naïve mengasumsikan ada class
conditional independence. Maksudnya, nilai dari atribut-atribut tersebut bersifat independen satu sama lain. Maka,
| ∏ | ………(2.8)
xk merujuk pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, akan
dicek apakah atribut tersebut adalah atribut kategorikal atau atribut yang nilainya kontinyu. Sebagai contoh, untuk menghitung P(X|Ci), perlu
dipertimbangkan hal berikut ini :
1) Jika Ak adalah atribut kategorikal, maka P(xk|Ci) adalah jumlah
tuple dari kelas Ci dalam D yang mempunyai nilai xk untuk Ak,
dibagi dengan |Ci, D|, |Ci, D| adalah jumlah tuple pada kelas Ci dalam
D.
P(xk | Ci) = |xki|/ Nci……… (2.10)
Dimana :
P(xk|Ci) adalah probabilitas likelihood dari atribut xk dalam
kelas Ci
Xki adalah jumlah atribut xk yang termasuk dalam kelas
Ci
Nci adalah jumlah Ci
2) Jika Ak adalah atribut yang nilainya kontinyu, maka perhitungan
menjadi lebih rumit karena melibatkan distribusi Gaussian dengan mean µ dan standar deviasi σ. Perhitungannya adalah sebagai berikut
, μ, √ ………(2.11)
Maka,
Dimana :
P(Xk|Ci) adalah probabilitas likelihood dari atribut xk dalam
kelas Ci.
Xk adalah nilai atribut Xk
µCi adalah nilai rata-rata dari kelas Ci.
σCi adalah nilai standar deviasi dari kelas Ci
5. Untuk memprediksi label kelas X, P(X|Ci)P(Ci) perlu dievaluasi untuk setiap kelas Ci. Penggolong naïve Bayesian memprediksi label kelas tuple X adalah Ci jika dan hanya jika P(X|Ci)P(Ci) > P(X|Cj)P(Cj) untuk 1≤ j≤ m, j≠i. Dengan kata lain, prediksi suatu label kelas adalah kelas Ci untuk P(X|Ci)P(Ci) adalah maksimum.
Contoh, disediakan data sebagai berikut.
Tabel 2.2 Sekumpulan Data Pelatihan
NO Umur Pemasukan Mahasiswa Angka_kredit Kelas:
beli_komputer
1 Muda Tinggi Tidak Baik Tidak
2 Muda Tinggi Tidak Sangat Baik Tidak
3 Setengah baya Tinggi Tidak Baik Ya
4 Tua Menengah Tidak Baik Ya
5 Tua Rendah Ya Baik Ya
6 Tua Rendah Ya Sangat Baik Tidak
7 Setengah baya Rendah Ya Sangat Baik Ya
8 Muda Menengah Tidak Baik Tidak
10 Tua Menengah Ya Baik Ya
11 Muda Menengah Ya Sangat Baik Ya
12 Setengah baya Menengah Tidak Sangat Baik Ya
13 Setengah baya Tinggi Ya Baik Ya
14 Tua Menengah Tidak Sangat Baik Tidak
Data digambarkan dengan atribut-atribut umur, pemasukan, mahasiswa, dan angka_kredit. Sedangkan atribut label kelas adalah beli_komputer yang terdiri dari dua nilai yaitu “ya” atau “tidak”. Misalkan C1 adalah kelas beli_komputer =
ya dan C2 adalah kelas beli_komputer=tidak. Data yang akan diklasifikasikan
adalah X = (umur = muda, pemasukkan = menengah, mahasiswa = ya, angka_kredit = baik). P(X|Ci)P(Ci) perlu dimaksimalkan untuk setiap i = 1, 2.
P(Ci) adalah probabilitas prior (untuk setiap kelas) yang dapat dihitung
berdasarkan data pelatihan pada tabel 2.2. P(beli_komputer = ya) = 9/14 = 0.643 P(beli_komputer = tidak) = 5/14 = 0.357
Untuk menghitung P(X|Ci), untuk i = 1, 2 akan dihitung probabilitas bersyarat sebagai berikut
P(angka_kredit = tinggi | beli_komputer = ya) = 6/9 = 0.667 P(angka_kredit = tinggi | beli_komputer = ya) = 2/5 = 0.400 Dari probabilitas-probabilitas tersebut, diperoleh
P(X|beli_komputer = ya) = P(umur = muda | beli_komputer = ya) x
P(pemasukkan = menengah| beli_komputer = ya) x P(mahasiswa = ya| beli_komputer = ya) x
P(angka_kredit = tinggi | beli_komputer = ya) = 0.222 x 0.444 x 0.667 x 0.667
= 0.044 Dengan cara yang sama,
P(X|beli_komputer = tidak) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019. Untuk menemukan kelas Ci, maksimalkan P(X|Ci)P(Ci) dengan menghitung P(X|beli_komputer = ya) P(beli_komputer = ya) = 0.044 x 0. 643 = 0.028 P(X|beli_komputer = tidak) P(beli_komputer = tidak) = 0.019 x 0. 357 = 0.007 Persentasi prediksi untuk beli_komputer = ya adalah :
0.028/(0.028 + 0.007 ) x 100% = 80 %
Persentasi prediksi untuk beli_komputer = tidak adalah : 0.007/(0.028 + 0.007 ) x 100% = 20 %
D. k-fold Cross Validation
Cross Validation adalah salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model prediktif. Dalam k-fold Cross Validation, data akan dipartisi secara acak ke dalam k partisi, D1, D2, …Dk, masing-masing D
mempunyai jumlah yang sama. Pada iterasi ke – i partisi Di digunakan sebagai
data uji, sedangkan sisa partisi digunakan sebagai data pelatihan. Maka dari itu pada iterasi pertama, D1 digunakan sebagai data uji dan D2, D3, ….Dk digunakan
sebagai data pelatihan. Pada iterasi kedua, D2 digunakan sebagai data uji,
sedangakan D1, D3, ….Dk digunakan sebagai data pelatihan. Pada iterasi ketiga,
D3 digunakan sebagai data uji, sedangkan D1, D2, …Dk digunakan sebagai data
pelatihan dan seterusnya. Setiap sample D, hanya digunakan sekali sebagai data uji dan berkali-kali sebagai data pelatihan.
Untuk pengklasifikasian, pengukuran keakurasian dapat dihitung dengan cara : seluruh jumlah klasifikasi yang benar dari k iterasi, dibagi dengan seluruh data.
E. Mengukur Tingkat Keakuratan Penggolong (Classifier)
Keakuratan penggolong dapat diukur dari data uji. Keakuratan penggolong (jika diberikan data uji) adalah persentasi dari dari tuple data uji yang telah diprediksi dengan benar oleh penggolong.
adalah inputan pada baris m yang pertama dan kolom m yang pertama. CMi, j
menunjukkan jumlah tuple dari kelas i yang sudah dilabeli oleh penggolong sebagai kelas j.
Tabel 2.3 confusion matrix
Jika diberikan dua kelas, ada terminologi tuple positif dan tuple negatif. Benar positif merujuk pada tuple positif yang dilabeli oleh penggolong secara benar. Benar negatif merujuk pada tuple negatif yang dilabeli oleh penggolong secara benar. Salah positif merujuk pada tuple negatif yang dilabeli dengan tidak benar. Maka, Salah negatif merujuk pada tuple positif yang dilebeli dengan tidak benar. Sensitivitas (sensitivity) juga merujuk pada angka benar positif. Angka benar positif adalah ukuran dari tuple positif yang diidentifikasi dengan benar. Spesifikasi (specificity) merujuk pada angka benar negatif. Angka benar negatif adalah ukuran dari tuple negatif yang diidentifikasi dengan benar. Sebagai tambahan, diperlukan perhitungan ketelitian (precision) untuk mendapatkan persentasi dari tuple yang dilabeli sebagai ‘a’ yang sebenarnya adalah ‘a’.
_
_
_ _ ………...(2.15)
Dimana :
t_pos adalah jumlah benar positif.
pos adalah jumlah tuple positif.
t_neg adalah jumlah benar negatif.
neg adalah jumlah tuple negatif.
f_pos adalahjumlah salah positif.
Dengan demikian untuk menghitung keakuratan sebuah penggolong adalah
….(2.16)
F. Analisis Korelasi
Analisis korelasi merupakan salah satu dari metode statistik. Metode ini digunakan untuk menyelidiki hubungan antara dua buah variabel atau antar set variabel. Analisis korelasi mengukur seberapa besar hubungan antara dua variabel atau antar set variabel.
variabel dapat diklasifikasikan sebagai berikut.
Tabel 2.4 Tabel Interprestasi Besarnya Nilai Koresi
Nilai Korelasi Hubungan Korelasi
0,00 – 0,09 Diabaikan/tidak ada korelasi
0,10 – 0,29 Rendah
0,30 – 0,49 Moderat
0,50 – 0,70 Sedang
> 0,70 Sangat kuat
Untuk mengetahui hubungan antara dua variabel data yang berskala ordinal digunakan koefisien korelasi Rank Spearman dan Kendall’s Tau. Koefisien Pearson digunakan untuk mengetahui hubungan antara dua variabel data yang berskala interval.
Salah satu jenis korelasi adalah korelasi bivariat. Korelasi bivariat merupakan uji korelasi sederhana antara dua variabel.
Tabel 2.5 Tabel Contoh Hasil Analisis Korelasi di SPSS
0,05.
28
A. Identifikasi Sistem
Setiap tahun Universitas Sanata Dharma menerima calon mahasiswa baru
melalui tes masuk. Ada 3 gelombang tes masuk yaitu gelombang 1, gelombang 2,
dan gelombang 3. Calon mahasiswa yang mengikuti tes masuk berasal dari latar
belakang SMA yang berbeda-beda, dengan jurusan yang berbeda-beda pula.
Sebelum menjalani tes masuk, calon mahasiswa memilih maksimal 3 prodi sesuai
dengan keinginan mereka. Ketiga pilihan prodi tersebut ditempatkan pada pilihan
1, pilihan 2, dan pilihan 3. Ketika menjalani tes masuk, calon mahasiswa
menempuh 5 komponen tes, yaitu tes kemampuan numerik, penalaran verbal,
mekanik, hubungan ruang, dan bahasa Inggris. Semua keterangan tentang
data-data tersebut dikumpulkan dan didokumentasikan oleh pihak universitas.
Data PMB (Penerimaan Mahasiswa Baru) tersebut akan diteliti apakah
mempengaruhi keberhasilan studi mahasiswa yang bersangkutan. Keberhasilan
studi seorang mahasiswa dapat direpresentasikan dengan indeks prestasi
kumulatif. Untuk meneliti apakah ada keterkaitan antara data PMB dengan
prestasi akademik seorang mahasiswa, akan dilakukan proses penambangan data.
Penambangan data akan menemukan informasi/pengetahuan yang
mendeskripsikan mahasiswa dengan data PMB seperti apa yang mempunyai
prestasi akademik kurang/memuaskan/sangat memuaskan/dengan pujian.
mahasiswa prodi Teknik Informatika tahun 2000 sampai dengan tahun 2007. Data
tersebut dibagi menjadi 2 bagian dengan metode pengukuran menggunakan
cross-validation. Bagian pertama digunakan sebagai data pelatihan, dan bagian yang
lainnya digunakan sebagai data uji. Data pelatihan digunakan untuk membuat
sebuah classifier yang menjelaskan karakteristik data mahasiswa yang
mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan
pujian. Melalui classifier tersebut akan dites sebuah record data yang diambil dari
kumpulan data uji. Maka, record bisa diklasifikasikan ke dalam klasifikasi
mahasiswa yang mempunyai nilai prestasi akademik kurang/memuaskan/sangat
memuaskan/dengan pujian.
B. Analisis Data Awal
Data mentah yang digunakan untuk penelitian ini adalah data PMB dan
data akademik mahasiswa Teknik Informatika yang didapat dari Biro
Administrasi Akademik (BAA) melalui Biro Administrasi dan Perencanaan
Sistem Informasi (BAPSI). Data diberikan dalam format ekstensi xls yang
terdiri dari 8 sheet. Sheet pertama menampung data-data mahasiswa Teknik
Informatika tahun 2007, sheet 2 sampai sheet 8 berturut-turut menampung
data-data mahasiswa Teknik Informatika tahun 2006, 2005, 2004, 2003,
2002, 2001, dan 2000. Data mahasiswa tersebut terdiri dari atribut Nomor,
Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA, Nilai
Tes Masuk Penalaran Verbal (PV), Nilai Tes Masuk Kemampuan Numerik
Ruang (HR), Nilai Tes Masuk Bahasa Inggris (BI), dan IPK Semester 4.
Pada sheet pertama, terdapat 92 data yaitu data mahasiswa yang
diterima di Prodi Teknik Informatika pada tahun 2007. Ada 45 record yang
mempunyai data tidak lengkap. Data yang tidak lengkap tersebut merupakan
data mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong, serta
data mahasiswa yang diterima di Prodi Teknik Informatika melalui jalur
prestasi. Mahasiswa yang masuk melalui jalur prestasi tidak mempunyai nilai
tes masuk karena seleksi dilakukan berdasarkan nilai rapor. Jadi, pada sheet 1
data yang tidak lengkap terdiri dari data pilihan 2, pilihan 3, nilai tes masuk
PV (Penalaran Verbal), nilai tes masuk KN (Kemampuan Numerik), nilai tes
masuk PM (Penalaran Mekanik), nilai tes masuk HR (Hubungan Ruang),
nilai tes masuk BI (Bahasa Inggris).
Pada sheet 2 yang menampung data mahasiswa Teknik Informatika
tahun 2006, terdapat 100 data, 41 diantaranya mempunyai data yang tidak
lengkap. Sama seperti sheet 1, data yang tidak lengkap merupakan data
mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong serta data
mahasiswa yang masuk melalui jalur prestasi.
Sheet 3 menampung data mahasiswa Teknik Informatika tahun 2005.
Sheet 3 terdapat 76 data. 27 diantaranya mempunyai data yang tidak lengkap.
Sama seperti sheet sebelumnya, data yang tidak lengkap merupakan data
mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong serta data
mahasiswa yang masuk melalui jalur prestasi.
Sheet 4 terdapat 68 data. 23 diantaranya mempunyai data yang tidak lengkap.
Sama seperti sheet sebelumnya, data yang tidak lengkap merupakan data
mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong serta data
mahasiswa yang masuk melalui jalur prestasi.
Sheet 5 menampung data mahasiswa Teknik Informatika tahun 2003.
Dari 66 data, ada 19 data yang memiliki atribut tidak lengkap. Data yang
tidak lengkap merupakan data mahasiswa yang atribut pilihan 2 dan atau
atribut pilihan 3 kosong serta data mahasiswa yang masuk melalui jalur
prestasi.
Sheet 6 menampung 67 data mahasiswa Teknik Informatika tahun
2002. 19 diantaranya mempunyai data yang tidak lengkap berupa atribut IPK
yang kosong, atribut pilihan 2 dan atau atribut pilihan 3 yang kosong, serta
atribut 5 komponen tes kosong.
Terdapat 106 data mahasiswa Teknik Informatika tahun 2001 pada
Sheet 7. Dari 106 data tersebut, terdapat 31 data yang memiliki atribut tidak
lengkap berupa atribut IPK yang kosong, atribut pilihan 2 dan atau atribut
pilihan 3 yang kosong, serta atribut 5 komponen tes kosong.
Sheet terakhir yaitu sheet 8 menampung data mahasiswa Teknik
Informatika tahun 2000. Ada 100 data pada sheet 8. 36 diantaranya memiliki
atribut yang tidak lengkap. Ada beberapa record yang tidak memiliki data
PMB sama sekali (seluruh atribut kosong kecuali atribut IPK). Hal lain
penyebab ketidaklengkapan atribut sama seperti beberapa sheet sebelumnya
yang kosong, serta atribut 5 komponen tes kosong.
1. Pembersihan Data
Pembersihan data (data cleaning) merupakan langkah awal dalam
proses penambangan data. Pada data mentah, terdapat beberapa record
yang mempunyai data yang tidak lengkap (missing value). Pada proses
pembersihan data, record yang mempunyai data yang tidak lengkap
tersebut dibuang.
Pada sheet 1 ada 45 record yang dibuang. 41 record dibuang pada
sheet 2, 27 record pada sheet 3, 23 record pada sheet 4, 19 record pada
sheet 5, 19 record pada sheet 6, 31 record pada sheet 7, dan 36 record
pada sheet 8.
2. Integrasi Data
Pada langkah ini, dilakukan proses penggabungan data. Data mentah
yang diterima disajikan secara terpisah untuk setiap tahunnya (disajikan
per sheet). Data yang disajikan secara terpisah tersebut disatukan dan
disimpan dalam satu tabel pada satu sheet.
3. Seleksi Data
Data yang sudah diintegrasikan dikenai proses seleksi data. Pada
proses seleksi data, dipilih atribut-atribut yang relevan untuk penelitian.
Data mentah yang didapat terdiri dari atribut-atribut berikut ini : Nomor,
Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA,
Nilai Tes Masuk PV (Penalaran Verbal), Nilai Tes Masuk KN
Tes Masuk HR (Hubungan Ruang), Nilai Tes Masuk BI (Bahasa Inggris),
dan IPK Semester 4. Atribut yang diperlukan untuk penambangan data
adalah : Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Jurusan SMA, Nilai
Tes Masuk PV (Penalaran Verbal), Nilai Tes Masuk KN (Kemampuan
Numerik), Nilai Tes Masuk PM (Penalaran Mekanik), Nilai Tes Masuk
HR (Hubungan Ruang), Nilai Tes Masuk BI (Bahasa Inggris), dan IPK
Semester 4. Atribut nomor dan asal SMA tidak dipakai karena kedua
atribut tersebut tidak relevan untuk penelitian.
Pada proses ini juga dilakukan analisis korelasi untuk analisis
variabel dengan menggunakan aplikasi SPSS. Analisis korelasi dilakukan
untuk memastikan apakah 10 atribut yang digunakan untuk penambangan
data bersifat independen satu sama lain. Artinya, antara atribut satu dengan
atribut yang lain tidak saling mempengaruhi.
Analisis korelasi digunakan untuk menyelidiki hubungan antara dua
buah variabel. Analisi korelasi ini akan mengukur seberapa besar
hubungan antara dua variabel atau antar set variabel. Berikut ini adalah
hasil analisis korelasi untuk 10 atribut prediktor yaitu atribut Gelombang,
Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA, Nilai Tes Masuk
PV (Penalaran Verbal), Nilai Tes Masuk KN (Kemampuan Numerik),
Nilai Tes Masuk PM (Penalaran Mekanik), Nilai Tes Masuk HR
Koefisien korelasi yang digunakan adalah koefisien Pearson karena
data yang diuji berskala interval. Uji dilakukan dua arah atau dua sisi.
Variabel yang dianggap layak untuk digunakan dalam penelitian dengan
menggunakan algoritma naïve bayesian adalah variabel yang nilai
korelasinya rendah/nilai korelasinya dapat diabaikan. Nilai korelasi dua
variabel rendah berarti kedua variabel tersebut independen satu sama lain.
Nilai korelasi yang rendah atau nilai korelasi yang dapat diabaikan adalah
nilai korelasi yang berkisar antara 0,00 hingga 0,09.
Dari tabel 3.1 dapat dilihat bahwa ada beberapa atribut yang
mempunyai hubungan korelasi dengan atribut lain. Berikut rangkuman
analisisnya.
Tabel 3.2 Tabel rangkuman analisis korelasi
Atribut Independen terhadap
atribut Berkorelasi dengan atribut
Gelombang Pilihan3, Jurusan_SMA, PV, PM, HR
Pilihan1, Pilihan2, KN, BI
Pilihan1 Jurusan_SMA, PV, KN, PM, BI
Gelombang, Pilihan2, Pilihan3, HR,
Pilihan2 Pilihan3, PV, KN, BI Gelombang, Pilihan1, Jurusan_SMA, HR, PM
Pilihan3 Jurusan_SMA, PV, KN, BI
Gelombang, Pilihan1, Pilihan2, PM, HR
Jurusan_SMA PV, PM, HR Gelombang, Pilihan1,
Pilihan2, Pilihan3, KN, BI
PV BI Gelombang, Pilihan1,
Jurusan_SMA, KN, PM, HR
KN BI Gelombang, Pilihan1,
Pilihan2, Pilihan3,
Jurusan_SMA, PV, PM, HR
PM BI Gelombang, Pilihan1,
Pilihan2, Pilihan3,
Jurusan_SMA, PV, KN, HR
HR BI Gelombang, Pilihan1,
Pilihan2, Pilihan3,
Jurusan_SMA, PV, KN, PM
Dari tabel 3.2 didapat 6 atribut yang saling independen satu sama lain,
yaitu atribut : Gelombang, Pilihan3, Jurusan_SMA, PV, PM, HR.
1. Transformasi Data
Pada langkah transformasi data, data nilai akademik mahasiswa
dklasifikasikan menjadi memuaskan/sangat memuaskan/dengan pujian
sesuai dengan buku panduan akademik mahasiswa prodi Teknik
Informatika dan dengan tambahan kategori IPK kurang untuk mahasiswa
yang mempunyai IPK < 2, 00. Berikut klasifikasinya:
Tabel 3.3 Transformasi Data IPK
IPK Klasifikasi
3,51 - 4,00 Dengan Pujian
2,76 - 3,50 Sangat Memuaskan
2,00 – 2,75 Memuaskan
A. Perancangan Umum Sistem
1. Masukan Sistem
Seperti telah disebutkan sebelumya, data yang akan diteliti dibagi
menjadi dua bagian yaitu data yang digunakan untuk data pelatihan
dan data yang digunakan untuk data uji. Kedua data tersebut akan
menjadi masukan bagi sistem. Data pelatihan terdiri dari 7 atribut, 6
atribut yaitu Gelombang, Pilihan3, Jur_SMA, final_tes_PV,
final_tes_PM, final_tes_HR adalah atribut input, sedangkan atribut
ke-7 yaitu IPK merupakan atribut target. Berikut ini adalah masukan
untuk data pelatihan.
Tabel 3.4 Deskripsi Masukan Untuk Data Pelatihan
No Nama Atribut Keterangan Nilai Atribut
1 Gelombang Gelombang satu, dua, tiga, kerjasama 2 Pilihan3 Pilihan ke 3 AKT, BK, FAR, FIS, IND,
IPAK, MAN, MAT, MEKA, PAK, PBI, PBSID, PEK, PFIS, PGSD, PMAT, PSEJ, PSI, SEJ, SING, TE, TI, TM
3 jur_SMA Jurusan
SMA
SMU/MA IPA, SMU/MA IPS, SMU/MA /DUDAYA/
BAHASA, SMK (TEKNIK/ STM), SMK
(EKONOMI/SMEA/SMKK), SMF.
4 final_tes_PV Nilai final
tes masuk penalaran verbal
0, 00 – 10, 00
5 final_tes_PM Nilai final
tes masuk penalaran mekanik
0, 00 – 10, 00
6 final_tes_HR Nilai final
tes masuk hubungan
ruang
7 IPK IPK
mahasiswa pada
semester ke 4
Kurang, Memuaskan, sangat memuaskan, dengan pujian
Sedangkan masukan untuk data uji hampir sama dengan masukan
untuk data pelatihan, hanya saja masukan untuk data uji dianggap
tidak mempunyai atribut IPK; yang ada adalah atribut prediksi.
Masukan untuk data uji juga terdiri dari terdiri dari 7 atribut, 6 atribut
yaitu Gelombang, Pilihan3, Jur_SMA, final_tes_PV, final_tes_PM,
final_tes_HR adalah atribut input dan atribut ke-7 adalah prediksi.
Atribut prediksi digunakan untuk menyimpan hasil uji yang dibuat
oleh penggolong (classifier). Berikut ini adalah masukan untuk data
uji.
Tabel 3.5 Deskripsi Masukan Untuk Data Uji
No Nama Atribut Keterangan Nilai Atribut
1 Gelombang Gelombang satu, dua, tiga, kerjasama 2 Pilihan3 Pilihan ke 3 AKT, BK, FAR, FIS, IND,
IPAK, MAN, MAT,
MEKA, PAK, PBI, PBSID, PEK, PFIS, PGSD, PMAT, PSEJ, PSI, SEJ, SING, TE, TI, TM
3 jur_SMA Jurusan
SMA
SMU/MA IPA, SMU/MA IPS, SMU/MA /DUDAYA/ BAHASA, SMK
(TEKNIK/ STM), SMK (EKONOMI/SMEA/SMKK ), SMF.
4 final_tes_PV Nilai final
tes masuk penalaran verbal
5 final_tes_PM Nilai final tes masuk penalaran mekanik
0, 00 – 10, 00
6 final_tes_HR Nilai final
tes masuk hubungan ruang
0, 00 – 10, 00
5 Prediksi Nilai awal
adalah kosong. Nantinya akan berisi prediksi dari nilai IPK mahasiswa pada semester ke 4 Kurang, Memuaskan, sangat memuaskan, dengan pujian
1.1.Perancangan Struktur Data
Struktur Data yang digunakan untuk menyimpan data tersebut
berupa List. Data pelatihan ditampung di List Pelatihan dan data
uji ditampung di List data Uji. Ada 7 list yang digunakan untuk
menampung data mahasiswa.
Tabel 3.6 Tabel List Data Mahasiswa
Nama List Fungsi
List Gelombang digunakan untuk menampung
data gelombang masuk mahasiswa baru
List Pilihan3 digunakan untuk menampung
data mahasiswa baru yaitu
pilihan prodi ke 3
list Jur_SMA digunakan untuk menampung
di SMA
list tes_PV digunakan untuk menampung
data nilai tes masuk mahasiswa
untuk komponen penalaran verbal
list tes_PM digunakan untuk menampung
data nilai tes masuk mahasiswa untuk komponen penalaran mekanik
list tes_HR digunakan untuk menampung
data nilai tes masuk mahasiswa
untuk komponen hubungan ruang
list IPK digunakan untuk menampung
data IPK mahasiswa pada semester 4
2. Proses Sistem
Masukan sistem akan diproses dengan algoritma naïve bayesian.
Berikut ini adalah proses dari sistem :
a. Data masukan akan dibagi ke dalam beberapa fold atau partisi
tertentu (pembagian partisi berdasarkan inputan user) yang
jumlah data untuk setiap partisi adalah sama.
b. Misal user menginputkan jumlah partisi 10 ; pada iterasi
pertama, partisi 1 akan dijadikan sebagai data uji dan partisi 2
– partisi 10 digunakan sebagai data pelatihan. Pada itersai
dan partisi 3 – partisi 10 akan dijadikan data pelatihan. Pada
iterasi ketiga, partisi 3 akan dijadikan sebagai data uji,
sedangkan partisi 1, partisi 2, partisi 4 – partisi 10 akan
dijadikan data pelatihan. Begitu seterusnya hingga partisi 10
digunakan sebagai data uji dan partisi 1- partisi 9 digunakan
sebagai data pelatihan.
c. Deklarasikan kelas-kelas yang muncul dari atribut target.
Misal C1 untuk kelas IPK=kurang, C2 untuk IPK=memuaskan,
C3 untuk kelas IPK=sangat memuaskan, C4 untuk kelas
IPK=dengan pujian.
d. Untuk setiap record pada partisi data uji lakukan perhitungan
menggunakan data dari sekumpulan partisi data pelatihan
sebagai berikut:
d.1. Hitung Likelihood masing-masing atribut untuk setiap
kelas C1, C2, C3, C4.
d.1.1. Cek Atribut apakah atribut kategorikal atau atribut
kontinyus.
d.1.1.1. Jika Atribut kategorikal, perhitungan
likelihood merujuk pada rumus 2.10
berikut ini
P(xk | Ci) = |xki|/ Nci .
Implementasi rumus 2.10 pada data dapat
d.1.1.2. Jika Atribut kontinyus, perhitungan
likelihood merujuk pada rumus 2.11
berikut ini
Implementasi rumus 2.11 pada data dapat
dilihat pada lampiran.
d.2. Hitung probabilitas prior untuk masing-masing kelas C1,
C2, C3, C4. Probabilitas prior dari kelas Cx dapat dihitung
dengan cara membagi jumlah Cx dengan jumlah seluruh
sampel.
d.3. Hitung probabilitas posterior sesuai dengan rumus 2.4
sebagai berikut
d.4. Bandingkan hasil perhitungan probabilitas posterior untuk
kelas C1, C2, C3, C4. Penggolong naïve Bayesian
memprediksi sebuah record ke kelas yang mempunyai
nilai probabilitas posterior tertinggi.
3. Keluaran Sistem
Setiap tahapan proses dalam program mempunyai keluaran sebagai
berikut:
a. Proses input data menampilkan:
1) Jumlah sampel data keseluruhan.
3) Detail dari atribut masukan dan atribut target berupa :
a) Nilai-nilai kejadian dari masing-masing atribut masukkan
dan atribut target.
b) Jumlah masing-masing nilai kejadian dari atribut masukkan
dan atribut target.
b. Proses klasifikasi menampilkan:
1) Jumlah fold yang digunakan untuk proses klasifikasi.
2) Kelas-kelas yang akan diklasifikasi.
3) Nomor record data uji pada masing-masing fold (yang artinya :
nomor record yang tidak dicantumkan adalah sebagai data
pelatihan).
4) Hasil prediksi untuk setiap record pada data uji.
5) Jumlah data yang bisa diklasifikasikan dengan benar dan
jumlah data yang gagal diklasifikasikan dengan benar.
6) Tingkat validitas prediksi.
4. Diagram Model Use Case
4.1 Narasi Use Case
Pengarang : Asteria Indharlina Tanggal : 13 November 2009
Versi :
Nama Use Case Input Data Jenis Use Case :
Persyaratan Bisnis
Use Case ID KNB-001
Prioritas Tinggi
Sumber -
Aktor Bisnis Primer Petugas Aktor pendukung lainnya - Stakeholder lain yang berhubungan -
Deskripsi Use case ini mendeskripsikan suatu kejadian yang
dilakukan oleh petugas. Petugas menginputkan data ke sistem untuk dilakukan proses perhitungan dengan algoritma Naïve Bayesian.
Prakondisi File data yang diinputkan adalah file excel dengan
format extention .xls.
Pemicu -
Langkah Umum Kegiatan aktor Respon Sistem
Langkah 1: Petugas memilih sub menu input data pada sistem.
Langkah 3: Petugas mem-browse file data excel.
Langkah 2 : Sistem merespon dengan menampilkan halaman input data.
Langkah 4: Sistem merespon dengan menampilkan data pada tabel yang telah
berupa nama atribut, nilai kejadian atribut dan jumlah dari masing-masing nilai kejadian atribut.
Langkah alternatif -
Kesimpulan Use case ini selesai jika sistem sudah menampilkan
data mahasiswa pada tabel yang telah disediakan, atribut pada tabel disediakan beserta informasi-informasi tentang jumlah sampel data keseluruhan, jumlah atribut dan detail atribut
Pascakondisi Data pada tabel tersebut akan diolah untuk dikenai
algoritma naïve bayesian.
Aturan bisnis -
Batasan dan spesifikasi Implementasi
-
Asumsi -
Masalah terbuka -
Pengarang : Asteria Indharlina Tanggal : 13 November 2009
Versi :
Nama Use Case Lihat Detail Atribut Jenis Use Case :
Persyaratan Bisnis
Use Case ID KNB-002
Prioritas Tinggi
Sumber -
Aktor Bisnis Primer Petugas Aktor pendukung lainnya - Stakeholder lain yang berhubungan -
Deskripsi Use case ini mendeskripsikan suatu kejadian yang
dilakukan oleh petugas. Ketika petugas melakukan aksi klik pada salah satu cell tabel detail atribut, maka sistem akan menampilkan detail atribut berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.
Prakondisi Petugas sudah mengeksekusi use case “Input Data”.
Pemicu -
Langkah Umum Kegiatan Aktor Respon Sistem
Langkah 2 : Petugas melakukan aksi klik (pilih atribut yang akan dilihat detail
informasinya) pada salah satu cell tabel detail atribut.
Langkah 4 : Petugas melihat detail atribut.
menampilkan atribut pada tabel detail atribut.
Langkah 3 : Sistem menampilkan informasi berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.
Langkah alternatif -
Kesimpulan Use case ini selesai jika sistem sudah menampilkan
Detail informasi dari atribut yang dipilih berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.
Pascakondisi -
Aturan bisnis -
Batasan dan spesifikasi Implementasi
-
Asumsi -
Masalah terbuka -
Pengarang : Asteria Indharlina Tanggal : 13 November 2009
Versi :
Nama Use Case Input Fold Jenis Use Case :
Persyaratan Bisnis
Use Case ID KNB-003
Prioritas Tinggi
Sumber -
Aktor Bisnis Primer Petugas Aktor pendukung lainnya -
yang berhubungan
Deskripsi Use case ini mendeskripsikan suatu kejadian yang
dilakukan oleh petugas. Untuk melakukan perhitungan probabilitas pada algoritma naïve bayesian, petugas perlu memasukkan jumlah fold
(jumlah fold minimal adalah 2 dan jumlah fold
maksimal adalah jumlah data keseluruhan itu sendiri) ke sistem.
Prakondisi Petugas sudah mengeksekusi use case “Input Data”.
Pemicu -
Langkah Umum Kegiatan Aktor Respon Sistem
Langkah 1 : Petugas memasukkan jumlah fold
pada field yang telah disediakan.
Langkah 2: Petugas menekan tombol OK .
Langkah 3 : Sistem menampilkan hasil prediksi dan tingkat validasi dari prediksi tersebut.
Langkah alternatif -
Kesimpulan Use case ini selesai jika sistem sudah menampilkan
hasil prediksi dan tingkat validasi dari prediksi tersebut.
Pascakondisi -
Aturan bisnis -
Batasan dan spesifikasi Implementasi
-
Asumsi -
Pengarang : Asteria Indharlina Tanggal : 13 November 2009
Versi :
Nama Use Case Hitung Posterior Jenis Use Case :
Persyaratan Bisnis
Use Case ID KNB-004
Prioritas Tinggi
Sumber