Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi akademik mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma dengan menggunakan algoritma naive bayesian - USD Repository

(1)

i

dengan Menggunakan Algoritma

Naive Bayesian

Skripsi

Diajukan untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Teknik Jurusan Informatika

Oleh :

Asteria Indharlina

065314052

JURUSAN TEKNIK INFORMATIKA

FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA

YOGYAKARTA

(2)

ii

Using

Naive Bayesian

Algorithm

A Thesis

Presented as Partial Fullfillment of the Requirements

To Obtain the Sarjana Teknik Degree

In Study Program of Informatics Engineering

By :

Asteria Indharlina

Student Number : 065314052

INFORMATICS ENGINEERING STUDY PROGRAM

FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY

YOGYAKARTA

(3)

iii

SKRIPSI

Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma

dengan Menggunakan Algoritma

Naive Bayesian

Disusun Oleh :

Asteria Indharlina

065314052

Telah Disetujui Oleh :

Pembimbing

(4)

iv

Mahasiswa Jurusan Teknik Informatika Universitas Sanata Dharma

dengan Menggunakan Algoritma

Naive Bayesian

Yang Dipersiapkan dan Disusun Oleh :

Asteria Indharlina

NIM : 065314052

Telah dipertahankan di depan Tim Penguji

Pada tanggal 3 September 2010

Dan dinyatakan memenuhi syarat

Susunan Tim Penguji

Tanda Tangan

Ketua

: P. H. Prima Rosa, S.Si., M.Sc. ---

Sekretaris : Eko Hari Parmadi, S.Si., M.Kom.

---

Anggota : Alb. Agung Hadhiatma, S.T., M.T.

---

Yogyakarta, September 2010

Fakultas Sains dan Teknologi

Universitas

Sanata

Dharma

Dekan,

(5)

v

dan yang banyak pengalamannya mengucapkan pengertian.

Orang yang tidak berpengalaman hanya mengetahui sedikit,

Sedangkan orang yang banyak perjalannya

mengumpulkan kecerdikan besar”

Sirakh 34: 9-10

Kupersembahkan Untuk :

Tuhan Yesus Kristus

Keluarga Tercinta

(6)

vi

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak

memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam

kutipan dan daftar pustaka, sebagaimana layaknya karya ilimiah.

Yogyakarta, 27 September 2010

Penulis

(7)

vii

Ada beberapa faktor kunci keberhasilan seorang mahasiswa dalam menempuh studi,

diantaranya adalah potensi akademik, motivasi, dan latar belakang mahasiswa tersebut. Potensi

akademik bisa tercermin dalam nilai tes masuk, motivasi bisa tercermin dalam gelombang tes

masuk dan prioritas pilihan prodi. Sedangkan latar belakang akademik bisa tercermin dari

jurusan ketika di SMA.

(8)

viii

There are several key success factors for student in their study, such us there academic

potential, their motivations, as well as their backgrounds. Academic potentials could be reflected

in the admission test score, motivations could be reflected in the period of the admision test and

their priority of choice. While the academic background could be reflected in the major program

while they were in the Senior High School.

(9)

ix

PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma :

Nama

: Asteria Indharlina

NIM :

0653114052

Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan

Universitas Sanata Dharma karya ilmiah saya yang berjudul :

“Klasifikasi Data Penerimaan Mahasiswa Baru dan Prestasi Akademik

Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan

Menggunakan Algoritma

Naive Bayesian”

Berserta perangkat yang diperlukan (bila ada). Dengan demikian saya memberikan

kepada Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam

bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikannya

secara terbatas, dan mempublikasikannya di internet atau media lain untuk

kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti

kepada saya selama tetap mencatumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Dibuat di Yogyakarta

Pada tanggal 15 September 2010

Yang menyatakan

(10)

x

Dalam nama Bapa, Putra, dan Roh Kudus, penulis selalu diberi kekuatan untuk

berkembang dan menjadi lebih. Puji syukur penulis panjatkan atas Kehadirat Tuhan Yang Maha

Esa, yang telah melimpahkan rahmat dan berkatNya sehingga penulis dapat menyelesaikan tugas

akhir yang berjudul “

Mahasiswa Teknik Informatika Universitas Sanata Dharma dengan Menggunakan

Algoritma

Naive Bayesian”. Tugas akhir ini ditulis sebagai salah satu syarat memperoleh gelar

sarjana program studi Teknik Informatika, Fakultas Sains dan Teknologi Universitas Sanata

Dharma.

Dalam kesempatan ini, penulis mengucapkan terimakasih yang sebesar-besarnya kepada :

1.

Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku dosen pembimbing, terimakasih atas segala

bimbingan dan kesabaran dalam mengarahkan dan membimbing penulis dalam

menyelesaikan tugas akhir ini.

2.

Bapak Puspaningtyas Sanjoyo Adi, S.T., M.T., selaku kaprodi Teknik Informatika.

3.

Bapak Eko Hari Parmadi, S.Si., M.Kom. dan Bapak Alb. Agung Hadhiatma, S.T., M.T.

selaku dosen penguji.

4.

Seluruh staff pengajar Prodi Teknik Informatika Fakultas Sains dan Teknologi

Universitas Sanata Dharma.

5.

Bapak, Mama, Tiberius Tomo N.S., Paskalia dan semua keluarga yang telah memberikan

semangat serta doa yang tulus.

(11)

xi

tidak ditentukan selama bimbingan.

7.

Teman-teman seperjuangan, Robin Steven, Cresensia Devi, Hertartik Clarasita Devy,

Tulus Wardoyo, Yustinus Prima, Widyo Sutoto, terimakasih atas segala bantuan,

dukungan serta kesediaan dalam menciptakan hubungan simbiosis mutualisme dan

mampu menerapkan prinsip

win-win solution

.

8.

Teman-teman prodi Teknik Informatika angkatan 2006, atas kebersamaanya selama

penulis menjalani masa studi.

9.

Serta semua pihak yang tidak dapat disebutkan satu-persatu yang telah membantu penulis

dalam menyelesaikan tugas akhir ini.

Penulis menyadari bahwa tugas akhir ini jauh dari sempurna, oleh karena itu kritik dan

saran yang sifatnya membangun sangat penulis harapkan.

Akhir kata, penulis berharap semoga skripsi ini dapat bermanfaat bagi pembaca dan

pihak lain yang membutuhkannya.

Penulis

(12)

xii

Halaman Judul ………..………

i

Halaman Judul (Inggris) ………

ii

Halaman Persetujuan ………

iii

Halaman Pengesahan ………

iv

Halaman Persembahan ……….………

v

Halaman Pernyataan Keaslian Karya …………..………

vi

Abstrak ……….……….

vii

Abstract ……….

viii

Lembar Pernyataan Persetujuan ………….……….

ix

Kata Pengantar ……….………

x

Daftar Isi ……….……….

xii

Daftar Tabel ………..………

xv

Daftar Gambar ………….……….

xvii

BAB I. Pendahuluan ………..………..

1

A. Latar

Belakang

……….………

1

B. Rumusan

Masalah

……….

2

C. Tujuan

………..………..

3

D. Batasan

Masalah

………..………….………

3

E. Metodologi

Penelitian

……….………..

5

F. Sistematika

Penulisan …………..………

6

BAB II. Landasan Teori ………....………

8

(13)

xiii

C. Klasifikasi

Naïve Bayesian

………..

16

D.

k-Fold Cross Validation

……….………..

23

E.

Mengukur Tingkat Keakuratan Penggolong(

Classifier

) …….………

23

F. Analisis

Korelasi

………….……….

25

BAB III. Analisis dan Perancangan Sistem ………..………..………

28

A. Identifikasi

Sistem

……….………..………..

28

B.

Analisis Data Awal ……….………..

29

1. Pembersihan

Data

……….……….………

32

2. Integrasi

Data ………..……….

32

3. Seleksi

Data ………..………

32

4. Transformasi

Data

…….………

36

C.

Perancangan Umum Sistem ……….

37

1. Masukan Sistem ………….………..

37

1.1.

Perancangan Struktur Data …….………..

39

2. Proses Sistem ………..……….

40

3. Keluaran Sistem ……….………..

42

4. Diagram Model

Use Case

……….……….

43

4.1. Narasi

Use Case

………..……….

44

5. Diagram Konteks ………..………

50

6. Diagram Aktivitas ……….……….

51

6.1. Diagram

Aktivitas

Input

Data ………..

51

(14)

xiv

6.4.

Diagram Aktivitas Hitung Posterior ………..

52

6.5.

Diagram Aktivitas Simpan

File

Hasil Klasifikasi ………

53

7. Diagram Kelas …….………..

54

8. Diagram Sekuensial ………..……….

55

8.1. Diagram

Sekuensial

Input

Data ………..

55

8.2.

Diagram Sekuensial Detail Atribut ………...

55

8.3. Diagram

Sekuensial

Input

Fold

………..

56

8.4.

Diagram Sekuensial Hitung Posterior ………..

56

8.5.

Diagram Sekuensial Simpan

File

Hasil Klasifikasi ………

57

9.

Perancangan Antar Muka ……….……….

57

BAB IV Implementasi Sistem ………..

64

A.

Spesifikasi

Software

dan

Hardware

………..………..

64

B.

Implementasi

Use Case

……….………..

64

C.

Implementasi Diagram Kelas

……….

68

BAB V Analisis Hasil ………..

93

A.

Analisis Hasil Program ………

93

B.

Kelebihan dan Kekurangan Program ………

108

BAB VI Penutup ………

110

A.

Kesimpulan ………..……… 110

B.

Saran ……….………

110

Daftar Pustaka

(15)

xv

Tabel 2.1

Ilustrasi Penggunaan Teorema Bayesian

………...

16

Tabel 2.2

Sekumpulan Data Pelatihan………..

20

Tabel 2.3

Confusion Matrix

………...

24

Tabel 2.4

Tabel Interprestasi Besarnya Nilai Koresi ………

26

Tabel 2.5

Tabel Contoh Hasil Analisis Korelasi di SPSS

………..

26

Tabel 3.1

Tabel Output analisis korelasi dengan menggunakan SPSS ……….

34

Tabel 3.2

Tabel rangkuman analisis korelasi ………..

35

Tabel 3.3

Transformasi Data IPK ……….

36

Tabel 3.4

Deskripsi Masukan untuk Data Pelatihan………

37

Tabel 3.5

Deskripsi Masukan untuk Data Uji……….

38

Tabel 3.6

Tabel

List

Data Mahasiswa ……….

39

Tabel 5.1

Tabel

Confusion Matrix

untuk Pengujian pada

Fold

1………

95

Tabel 5.2

Tabel

Confusion Matrix

Fold

2 ………

96

Tabel 5.3

Tabel

Confusion Matrix

Fold

3 ……….

97

Tabel 5.4

Tabel

Confusion Matrix

Fold

4 ……….

98

Tabel 5.5

Tabel

Confusion Matrix

Fold

5 ……….

99

Tabel 5.6

Tabel

Confusion Matrix

Fold

6 ………. 100

Tabel 5.7

Tabel

Confusion Matrix

Fold

7 ………. 101

Tabel 5.8

Tabel

Confusion Matrix

Fold

8 ………. 102

Tabel 5.9

Tabel

Confusion Matrix

Fold

9 ………. 103

(16)

xvi

(17)

xvii

Gambar 2.1 Langkah Penambangan Data………. 11

Gambar 3.1

Use Case

………... 43

Gambar 3.2 Diagram Konteks ……….

50

Gambar 3.3 Diagram Aktivitas

Input

Data ……….

51

Gambar 3.4 Diagram Aktivitas Detail Atribut ………

51

Gambar 3.5 Diagram Aktivitas

Input

Fold

……….. 52

Gambar 3.6 Diagram Aktivitas Hitung Posterior……….

52

Gambar 3.7 Diagram Aktivitas Simpan

File

Hasil Klasifikasi ……….

53

Gambar 3.8 Diagram Kelas ………..

54

Gambar 3.9 Diagram Sekuensial

Input

Data ……….

55

Gambar 3.10 Diagram Sekuensial Detail Atribut ……….

55

Gambar 3.11 Diagram Sekuensial

Input

Fold

………. 56

Gambar 3.12 Diagram Sekuensial Hitung Posterior ……….

56

Gambar 3.13 Diagram Sekuensial Simpan

File

Hasil Klasifikasi ………

57

Gambar 3.14 Halaman Awal ………..

58

Gambar 3.15 Halaman Awal dengan Submenu ………

58

Gambar 3.16 Halaman

Input

Data ………

59

Gambar 3.17 Jendela Pilih

File

Masukan ………..

60

Gambar 3.18 Halaman Proses ………

61

Gambar 3.19 Halaman Proses Lanjutan ………..

61

(18)

xviii

Gambar 3.22 Jendela Pertanyaan Konfirmasi Keluar ………..

63

Gambar 4.1 Halaman

Input

Data ………

65

Gambar 4.2 Proses

Input

Data Berhasil……… 66

Gambar 4.3 Lihat Detail Atribut ………

67

(19)

1

A. Latar Belakang

Salah satu faktor penentu kesuksesan seorang mahasiswa dalam

menempuh studi di perguruan tinggi adalah potensi akademik. Potensi akademik

bisa terlihat dalam nilai tes masuk akademik. Semakin bagus potensi akademik

seorang mahasiswa mestinya akan semakin sukses ia menempuh studi di

perguruan tinggi. Kesuksesan ini bisa direpresentasikan dengan indeks prestasi

kumulatif. Namun pada kenyataannya tidak semua mahasiswa yang mempunyai

potensi akademik yang bagus mempunyai nilai IPK yang bagus pula. Hal ini

memunculkan dugaan bahwa ada faktor lain yang mempengaruhi kesuksesan

seorang mahasiswa dalam menempuh studi. Faktor lain tersebut bisa berupa

motivasi dan latar belakang mahasiswa. Motivasi bisa tercermin dalam gelombang

test masuk dan prioritas pilihan prodi sedangkan latar belakang mahasiswa bisa

terlihat pada jurusan ketika di SMA.

Maka perlu dijajaki apakah betul faktor yang berhubungan dengan

motivasi dan latar belakang seorang mahasiswa tersebut benar-benar

mempengaruhi keberhasilan studi seorang mahasiswa?

Universitas Sanata Dharma sudah mempunyai data-data kemahasiswaan

yang mencakup data penerimaan mahasiswa baru (PMB) dan data prestasi

akademik mahasiswa dalam bentuk digital. Data digital tersebut bisa

(20)

menggunakan algoritma naïve Bayesian sehingga bisa diklasifikasikan data

mahasiswa yang mempunyai prestasi akademik yang kurang/memuaskan/sangat

memuaskan/dengan pujian.

Naïve Bayesian merupakan salah satu metode penambangan data yang

digunakan pada persoalan klasifikasi. Algoritma naïve Bayesian akan menghitung

probabilitas posterior untuk setiap nilai kejadian dari atribut target pada setiap

kasus (sampel data). Selanjutnya, naïve Bayesian akan mengklasifikasikan sampel

data tersebut ke kelas yang mempunyai nilai probabilitas posterior tertinggi. Maka

hal yang akan dilakukan dengan algoritma naïve Bayesian adalah menghitung

probabilitas posterior pada setiap sampel data untuk kelas IPK kurang, IPK

memuaskan, IPK sangat memuaskan, dan IPK dengan pujian.

Pada skripsi ini, penulis akan mengklasifikasikan data mahasiswa yang

mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan

pujian berdasarkan data penerimaan mahasiswa baru (PMB) dan data prestasi

akademik mahasiswa.

B. Rumusan Masalah

Dari latar belakang di atas, terdapat masalah yaitu :

Bagaimana mengklasifikasikan data mahasiswa yang mempunyai prestasi

kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data

penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa

(21)

C. Tujuan

Tujuan pembuatan aplikasi ini adalah untuk :

Mengklasifikasikan data mahasiswa yang mempunyai prestasi

kurang/memuaskan/sangat memuaskan/dengan pujian berdasarkan data

penerimaan mahasiswa baru (PMB) dan data prestasi akademik mahasiswa

dengan menggunakan algoritma naïve Bayesian.

D. Batasan Masalah

Dalam membangun sistem ini terdapat batasan-batasan antara lain :

1. Klasifikasi prestasi mahasiswa hanya berdasarkan data gelombang tes

masuk, pilihan prodi, prioritas pilihan prodi, jurusan di SMA dan nilai

final tes masuk lima komponen : nilai tes penalaran verbal, nilai tes

kemampuan numerik, nilai tes penalaran mekanik, nilai tes hubungan

ruang, nilai tes bahasa Inggris.

2. Data kemahasiswaan yang digunakan adalah data PMB (Penerimaan

Mahasiswa Baru) dan data akademik mahasiswa Teknik Informatika

Fakultas Sains dan Teknologi Universitas Sanata Dharma yang

mengikuti tes melalui jalur reguler dan jalur kerjasama yakni data

gelombang tes masuk mahasiswa, pilihan prodi, prioritas pilihan prodi,

jurusan di SMA dan nilai final tes masuk lima komponen yang terdiri

dari nilai tes penalaran verbal, nilai tes kemampuan numerik, nilai tes

penalaran mekanik, nilai tes hubungan ruang, nilai tes bahasa Inggris .

(22)

2001, 2002, 2003, 2004, 2005, 2006, 2007.

3. Data IPK yang digunakan adalah data IPK sampai semester 4 dengan

alasan bahwa pada akhir semester 4 terdapat evaluasi sisip program

yang menentukan apakah mahasiswa yang bersangkutan boleh

melanjutkan studi atau harus meninggalkan Program Studi yang

bersangkutan. Mahasiswa boleh melanjutkan studi di Program studi

yang bersangkutan apabila pada akhir semester 4 dapat mengumpulkan

sekurang-kurangnya 40 SKS dengan IPK sekurang-kurangnya 2.00.

Sistem yang dibuat ini dapat digunakan oleh Ketua Prodi Teknik

Informatika atau dosen pembimbing akademik untuk memprediksi

apakah pada evaluasi sisip program seorang mahasiswa boleh

melanjutkan studi atau harus meninggalkan Program studi. Dengan

adanya sistem ini baik Ketua Prodi maupun dosen pembimbing

akademik bisa lebih peka dan kritis terhadap mahasiswa-mahasiswa

yang diprediksikan tidak bisa melanjutkan studi dengan membuat

kebijakan tentang bagaimana langkah yang harus diambil untuk

mengupayakan agar mahasiswa-mahasiswa yang diprediksikan tidak

bisa melanjutkan studinya tersebut bisa melanjutkan studi di Program

Studi Teknik Informatika.

4. Data IPK dikategorikan menjadi IPK memuaskan/sangat

memuaskan/dengan pujian sesuai dengan buku panduan akademik

mahasiswa Teknik Informatika dan dengan tambahan kategori kurang

(23)

5. Perangkat lunak yang digunakan untuk membangun sistem ini adalah

adalah : sistem operasi Microsoft Windows XP profesional SP, bahasa

pemrograman Java.

E. Metodologi Penelitian

Metodologi penelitian dilakukan dengan teknik penambangan data.

Langkah-langkahnya adalah sebagai berikut :

1. Pembersihan data yaitu menghilangkan noice dan menghilangkan data

yang tidak konsisten.

2. Integrasi data yaitu menggabungkan data dari bermacam-macam

tempat penyimpanan data ke dalam satu tempat penyimpanan data

yang koheren.

3. Seleksi data yaitu data yang relevan diambil dari basis data. Pada

langkah ini akan dilakukan analisis korelasi dengan SPSS untuk

analisis fitur. Atribut-atribut data akan dicek apakah relevan untuk

dilakukan penambangan data. Atribut yang tidak relevan ataupun

atribut yang mengalami redundansi akan dibuang. Atribut yang

diharapkan adalah atribut yang bersifat independen.

4. Transformasi data yaitu data ditransformasikan ke dalam bentuk yang

tepat untuk ditambang dengan menampilkan kesimpulan operasi.

5. Penambangan data yaitu mengaplikasikan metode yang tepat untuk

mengekstrak pola data, yaitu dengan menggunakan metode naïve

(24)

kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak

berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek

yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah

independen dengan nilai atribut lainnya.

6. Evaluasi pola yaitu mengidentifikasi pola yang benar berdasarkan

beberapa pengukuran yang penting.

7. Presentasi pengetahuan yaitu mempresentasikan informasi yang sudah

ditambang kepada pengguna.

F. Sistematika Penulisan

BAB I PENDAHULUAN

Bab ini berisi tentang latar belakang masalah, batasan

masalah, tujuan, batasan masalah, dan metodologi

penelitian.

BAB II LANDASAN TEORI

Bab ini berisi tentang dasar teori yang yang berkaitan

dengan judul/masalah di tugas akhir yaitu teori tentang

penambangan data dan algoritma naive bayesian.

BAB III ANALISIS DAN PERANCANGAN SISTEM

Bab ini berisi tentang cara penerapan konsep dasar yang

telah diuraikan pada bab sebelumnya yaitu pada bab 2

untuk menganalisa dan merancang tentang sistem yang

(25)

BAB IV IMPLEMENTASI SISTEM

Bab ini berisi tentang implementasi ke program komputer

berdasarkan hasil perancangan yang telah dibuat.

BAB V ANALISIS HASIL

Bab ini berisi tentang analisis perangkat lunak yang sudah

dibuat, beserta kelebihan dan kekurangan pada sistem.

BAB VI PENUTUP

Bab ini berisi tentang kesimpulan dan saran dari penulisan

(26)

8

A. Penambangan Data

Sebuah organisasi pasti mempunyai sekumpulan data dengan jumlah yang besar. Untuk bisa berkompetisi dengan efektif dan bisa mendapatkan banyak keuntungan dari setiap kesempatan, pengambil keputusan perlu mengidentifikasi dan menggunakan informasi yang ada dari sekumpulan data tadi. Maka dari itu diperlukanlah penambangan data.

Penambangan data (data mining) berkenaan dengan mengekstrak atau menambang informasi/pengetahuan dari sekumpulan data dengan jumlah yang sangat besar. Secara fungsional, penambangan data adalah proses dari pengumpulan informasi penting dari sejumlah data yang besar yang tersimpan di basis data, gudang data, atau tempat penyimpanan informasi lainnya (Han&Kamber, 2006).

Secara sederhana, penambangan data adalah langkah-langkah dalam mendapatkan/menemukan pengetahuan (Han&Kamber, 2006). Penemuan pengetahuan ini merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari urutan-urutan sebagai berikut :

1. Pembersihan data (data cleaning)

(27)

Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain desain form masukan data yang kurang baik sehingga menyebabkan munculnya banyak field, adanya kesalahan petugas ketika memasukkan data, adanya kesalahan yang disengaja dan adanya data yang busuk. 2. Integrasi data (data integration)

Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam-macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang koheren. Macam-macam tempat penyimpanan data tersebut termasuk multiple database, data cube, atau file flat. Pada langkah ini, ada beberapa hal yang perlu diperhatikan yaitu integrasi skema dan pencocokan objek, redundansi data, deteksi dan resolusi konflik nilai data. Selama melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data. Struktur data perlu diperhatikan ketika mencocokkan atribut dari satu basis data ke basis data lain.

3. Seleksi data (data selection)

(28)

4. Transformasi data (data transformation)

Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Yang termasuk dalam langkah transformasi data adalah penghalusan (smooting) yaitu menghilangkan noise yang ada pada data, pengumpulan

(aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi

(generalization) yaitu mengganti data primitif/data level rendah menjadi data level tinggi), normalisasi (normalization) yaitumengemas data atribut ke dalam skala yang kecil, sebagai contoh -1.0 sampai 1.0, dan konstruksi atribut/fitur (attribute construction/feature construction) yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan.

5. Penambangan data (data mining)

Langkah ini adalah langkah yang penting di mana akan diaplikasikan metode yang tepat untuk mengekstrak pola data.

6. Evaluasi pola (pattern evaluation)

Langkahini berguna untuk mengidentifikasi pola yang benar dan menarik. Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan (knowledge presentation)

Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.

(29)

Pada langkah penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Kemudian pola yang menarik akan direpresentasikan kepada pengguna dan akan disimpan sebagai pengetahuan yang baru. Sebagai catatan, dalam urutan proses di atas, penambangan data hanya terdapat pada satu langkah. Walaupun penambangan data hanya terdapat dalam satu langkah, penambangan data merupakan langkah yang penting karena bisa menemukan pola tersembunyi yang nantinya akan dievaluasi.

Gambar 2.1 Langkah Penambangan Data

(30)

Secara umum, pekerjaan penambangan data bisa dikelompokkan menjadi dua kategori, yakni : deskriptif dan prediktif. Tugas penambangan deskriptif adalah menggolongkan sifat-sifat umum data dalam basis data. Sedangkan tugas penambangan prediktif adalah menampilkan kesimpulan dari data yang sekarang ada untuk membuat sebuah prediksi.

Jenis pola yang dapat diketahui dari penambangan data salah satunya adalah klasifikasi dan prediksi. Klasifikasi merupakan model yang dibangun untuk memprediksi label-label kategorikal yang direpresentasikan dengan nilai diskrit. Prediksi numerik merupakan model yang dibangun untuk memprediksi fungsi nilai yang kontinyu (continuous-valued function) ataupun nilai yang terurut (ordered value). Klasifikasi dan prediksi angka ini merupakan jenis permasalahan prediksi (Han&Kamber, 2006).

Klasifikasi data terdiri dari dua proses. Pada proses pertama, classifier

membangun gambaran konsep atau kelas data yang telah ditentukan sebelumnya. Langkah ini dinamakan langkah pembelajaran (learning) atau fase pelatihan. Pada fase pelatihan ini, algoritma klasifikasi yang diterapkan akan membangun sebuah

classifier. Caranya adalah dengan belajar dari sekumpulan data pelatihan yang diambil dari tuple basis data. Karena label kelas dari setiap tuple pelatihan sudah tersedia maka fase ini juga dikenal dengan sebutan fase supervised learning.

(31)

digunakan sekumpulan data uji. Data tersebut dipilih secara acak dari sekumpulan data umum. Data yang diuji ini bersifat independen dari data pelatihan, artinya data yang diuji tersebut tidak lagi digunakan untuk membuat classifier.

Salah satu cara penyelesaian masalah-masalah yang berkaitan dengan klasifikasi adalah dengan menggunakan teorema naïve Bayesian yang didasari oleh teorema Bayesian.

B. Teorema Bayesian

Teorema Bayesian mengungkapkan bahwa hasil probabilitas posterior sebanding dengan hasil perkalian antara likelihood dengan probababilitas prior. Probabilitas posterior adalah probabilitas bersyarat dari sebuah hipotesis jika diberikan data. Likelihood adalah probabilitas bersyarat dari sebuah data jika diberikan hipotesis. Probabilitas prior adalah probabilitas bahwa hipotesis itu benar sebelum data terlihat.

Misalkan X adalah tuple data. Dalam istilah Bayesian, X dianggap sebagai bukti atau kumpulan data pelatihan. Anggap H adalah hipotesis. Untuk masalah yang berhubungan dengan klasifikasi, akan ditentukan P(H|X), yaitu probabilitas bersyarat di mana probabilitas hipotesis H ditentukan oleh data X. P(H|X) adalah probabilitas posterior dari kondisi H terhadap X. P(X|H) adalah probabilitas

posterior dari X berdasarkan H. P(H) adalah probabilitas prior dari H. P(X) adalah probabilitas prior dari X. Kalkulasi dari probabilitas-probabilitas tersebut adalah sebagai berikut :

(32)

Dimana :

X adalah himpunan data pelatihan. H adalah hipotesis.

P(H|X) adalah probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis H setelah data X muncul.

P(H) adalah probabilitas prior dari hipotesis H yaitu probabilitas bahwa hipotesis H bernilai benar sebelum data X muncul.

P(X) adalah probabilitas dari data X.

P(X|H) adalah probabilitas bersyarat dari X yang berasal dari hipotesis H, dan biasa disebut dengan likelihood. likelihood ini mudah dihitung ketika memberikan nilai 1 saat X dan H konsisten, dan memberikan nilai 0 saat X dan H tidak konsisten.

Contoh, andaikan di sekolah AAA terdapat 60 % siswa putra dan 40% siswa putri. Siswa laki-laki menggunakan celana panjang. Siswa putri menggunakan celana panjang dan rok. Jumlah siswa putri yang menggunakan celana panjang sama dengan jumlah siswa putri yang menggunakan rok. Seorang pengamat memperhatikan siswa secara random dari kejauhan. Pengamat tersebut bisa melihat bahwa ada siswa yang menggunakan celana panjang. Berapa probabilitas bahwa siswa tersebut adalah seorang putri?

(33)

a. P(A), probabilitas di mana siswa tersebut adalah siswa putri. Selama pengamat memperhatikan siswa secara acak, artinya semua siswa mempunyai probabilitas yang sama di mata pengamat, probabilitas munculnya siswa putri diantara siswa adalah 40% atau 0.4

b. P(B|A), probablilitas siswa menggunakan celana panjang tergantung pada siswa tersebut adalah siswa putri. Probabilitas ini adalah 0.5

c. P(B), probabilitas siswa yang dipilih secara random adalah siswa yang menggunakan celana panjang. Karena P (B) = P (B | A) P (A) + P (B | A ') P

(A'), ini adalah 0,5 × 0,4 + 1 × 0,6 = 0,8.

Berdasarkan semua informasi di atas, probabilitas pengamat yang mengamati seorang siswa yang memakai celana panjang dapat dihitung sebagai berikut :

| | 0.5 0.4_0.8 0.25.

(34)

celana panjang maka hapus/abaikan 20 siswa yang tidak menggunakan celana panjang dan ambil probabilitas dari (20/100)/(80/100) atau 20/80.

Tabel 2.1 Ilustrasi penggunaan teorima Bayesian

Siswa putri Siswa putra Total

Celana panjang 20 60 80

Rok 20 0 20

Total 40 60 100

C. Klasifikasi Naïve Bayesian

Penggolong (classifier) Naïve Bayesian adalah penggolong yang bersifat statistik. Penggolong ini didasari oleh teorema Bayesian. Penggolong Naïve Bayesian dapat memprediksi probabilitas kelas, seperti probabilitas tuple yang termasuk ke dalam kelas tertentu. Penggolong naïve Bayesian didasarkan pada asumsi bahwa kehadiran/keberadaan fitur tertentu dari sebuah kelas tidak berhubungan dengan kehadiran/keberadaan fitur lainnya. Artinya, efek yang ditimbulkan dari sebuah nilai atribut dari sebuah kelas adalah independen dengan nilai atribut lainnya. Maka rumus 2.1 berubah menjadi

|

| | ….. | ……….(2.3)

Dimana :

X adalah himpunan data pelatihan. H adalah hipotesis.

(35)

probabilitas bersyarat dari hipotesis H setelah data X muncul.

P(H) adalah probabilitas prior dari hipotesis H sebelum X muncul.

P(X) adalah probabilitas dari data X. P(H) mempunyai nilai yang sama dengan kelas yang lain atau irrelevant.

| , | , | adalah probabilitas dari X1, X2, Xn untuk

hipotesis H, biasa disebut dengan likelihood. Karena P(X) irrelevant maka untuk mencari peluang hanya menggunakan rumus

| | | … . . | ……….(2.4)

Jika ada P(Xn|H) yang memiliki nilai=0, maka P(H|X)=0. Dengan demikian

penggolong Naïve Bayesian tidak bisa memprediksi record yang salah satu atributnya memiliki probabilitas bersyarat (likelihood)=0. Untuk mengatasi hal tersebut dilakukan langkah Laplace Estimator. Laplace Estimator dilakukan dengan melakukan perhitungan sebagai berikut

| ………..……….(2.5)

Dimana :

adalah jumlah dari Xn..

(36)

Penggolong Naïve Bayesian bekerja seperti berikut :

1. Anggap D adalah kumpulan data pelatihan dari tuple dan D berhubungan dengan label kelas.

2. Andaikan ada m kelas, C1, C2, … , Cm. Jika disediakan tuple X, penggolong

Naïve Bayesian memprediksi X ke dalam kelas yang mempunyai probabilitas posterior tertinggi. Maka penggolong Naïve Bayesian

memprediksi tuple X termasuk ke dalam kelas Ci jika dan hanya jika

P(Ci|X)>P(Cj|X) untuk 1 ≤j≤m, j ≠i. ………..(2.6)

Dengan demikian P(Ci|X) akan dimaksimalkan. Kelas Ci untuk setiap

P(Ci|X) yang dimaksimalkan dinamakan maximum posteriori hypothesis.

Berdasarkan teorema Bayes adalah :

|

| ………(2.7)

3. Selama P(X) konstan untuk semua kelas maka hanya P(X|Ci)P(Ci) yang

dimaksimalkan. Jika kelas probabilitas prior tidak diketahui, maka kelas-kelas tersebut diasumsikan sama, yaitu P(C1) = P(C2) = … = P(Cm), oleh

karena itu P(X|Ci) akan dimaksimalkan. Jika tidak, P(X|Ci)P(Ci) yang akan

dimaksimalkan.

4. Misalkan data terdiri dari banyak atribut. Untuk mengurangi kerumitan komputasi dalam mengevaluasi P(X|Ci), naïve mengasumsikan ada class

conditional independence. Maksudnya, nilai dari atribut-atribut tersebut bersifat independen satu sama lain. Maka,

| ∏ | ………(2.8)

(37)

xk merujuk pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, akan

dicek apakah atribut tersebut adalah atribut kategorikal atau atribut yang nilainya kontinyu. Sebagai contoh, untuk menghitung P(X|Ci), perlu

dipertimbangkan hal berikut ini :

1) Jika Ak adalah atribut kategorikal, maka P(xk|Ci) adalah jumlah

tuple dari kelas Ci dalam D yang mempunyai nilai xk untuk Ak,

dibagi dengan |Ci, D|, |Ci, D| adalah jumlah tuple pada kelas Ci dalam

D.

P(xk | Ci) = |xki|/ Nci……… (2.10)

Dimana :

P(xk|Ci) adalah probabilitas likelihood dari atribut xk dalam

kelas Ci

Xki adalah jumlah atribut xk yang termasuk dalam kelas

Ci

Nci adalah jumlah Ci

2) Jika Ak adalah atribut yang nilainya kontinyu, maka perhitungan

menjadi lebih rumit karena melibatkan distribusi Gaussian dengan mean µ dan standar deviasi σ. Perhitungannya adalah sebagai berikut

, μ, _√ ………(2.11)

Maka,

(38)

Dimana :

P(Xk|Ci) adalah probabilitas likelihood dari atribut xk dalam

kelas Ci.

Xk adalah nilai atribut Xk

µCi adalah nilai rata-rata dari kelas Ci.

σCi adalah nilai standar deviasi dari kelas Ci

5. Untuk memprediksi label kelas X, P(X|Ci)P(Ci) perlu dievaluasi untuk setiap kelas Ci. Penggolong naïve Bayesian memprediksi label kelas tuple X adalah Ci jika dan hanya jika P(X|Ci)P(Ci) > P(X|Cj)P(Cj) untuk 1≤ j≤ m, j≠i. Dengan kata lain, prediksi suatu label kelas adalah kelas Ci untuk P(X|Ci)P(Ci) adalah maksimum.

Contoh, disediakan data sebagai berikut.

Tabel 2.2 Sekumpulan Data Pelatihan

NO Umur Pemasukan Mahasiswa Angka_kredit Kelas:

beli_komputer

1 Muda Tinggi Tidak Baik Tidak

2 Muda Tinggi Tidak Sangat Baik Tidak

3 Setengah baya Tinggi Tidak Baik Ya

4 Tua Menengah Tidak Baik Ya

5 Tua Rendah Ya Baik Ya

6 Tua Rendah Ya Sangat Baik Tidak

7 Setengah baya Rendah Ya Sangat Baik Ya

8 Muda Menengah Tidak Baik Tidak

(39)

10 Tua Menengah Ya Baik Ya

11 Muda Menengah Ya Sangat Baik Ya

12 Setengah baya Menengah Tidak Sangat Baik Ya

13 Setengah baya Tinggi Ya Baik Ya

14 Tua Menengah Tidak Sangat Baik Tidak

Data digambarkan dengan atribut-atribut umur, pemasukan, mahasiswa, dan angka_kredit. Sedangkan atribut label kelas adalah beli_komputer yang terdiri dari dua nilai yaitu “ya” atau “tidak”. Misalkan C1 adalah kelas beli_komputer =

ya dan C2 adalah kelas beli_komputer=tidak. Data yang akan diklasifikasikan

adalah X = (umur = muda, pemasukkan = menengah, mahasiswa = ya, angka_kredit = baik). P(X|Ci)P(Ci) perlu dimaksimalkan untuk setiap i = 1, 2.

P(Ci) adalah probabilitas prior (untuk setiap kelas) yang dapat dihitung

berdasarkan data pelatihan pada tabel 2.2. P(beli_komputer = ya) = 9/14 = 0.643 P(beli_komputer = tidak) = 5/14 = 0.357

Untuk menghitung P(X|Ci), untuk i = 1, 2 akan dihitung probabilitas bersyarat sebagai berikut

(40)

P(angka_kredit = tinggi | beli_komputer = ya) = 6/9 = 0.667 P(angka_kredit = tinggi | beli_komputer = ya) = 2/5 = 0.400 Dari probabilitas-probabilitas tersebut, diperoleh

P(X|beli_komputer = ya) = P(umur = muda | beli_komputer = ya) x

P(pemasukkan = menengah| beli_komputer = ya) x P(mahasiswa = ya| beli_komputer = ya) x

P(angka_kredit = tinggi | beli_komputer = ya) = 0.222 x 0.444 x 0.667 x 0.667

= 0.044 Dengan cara yang sama,

P(X|beli_komputer = tidak) = 0.600 x 0.400 x 0.200 x 0.400 = 0.019. Untuk menemukan kelas Ci, maksimalkan P(X|Ci)P(Ci) dengan menghitung P(X|beli_komputer = ya) P(beli_komputer = ya) = 0.044 x 0. 643 = 0.028 P(X|beli_komputer = tidak) P(beli_komputer = tidak) = 0.019 x 0. 357 = 0.007 Persentasi prediksi untuk beli_komputer = ya adalah :

0.028/(0.028 + 0.007 ) x 100% = 80 %

Persentasi prediksi untuk beli_komputer = tidak adalah : 0.007/(0.028 + 0.007 ) x 100% = 20 %

(41)

D. k-fold Cross Validation

Cross Validation adalah salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model prediktif. Dalam k-fold Cross Validation, data akan dipartisi secara acak ke dalam k partisi, D1, D2, …Dk, masing-masing D

mempunyai jumlah yang sama. Pada iterasi ke – i partisi Di digunakan sebagai

data uji, sedangkan sisa partisi digunakan sebagai data pelatihan. Maka dari itu pada iterasi pertama, D1 digunakan sebagai data uji dan D2, D3, ….Dk digunakan

sebagai data pelatihan. Pada iterasi kedua, D2 digunakan sebagai data uji,

sedangakan D1, D3, ….Dk digunakan sebagai data pelatihan. Pada iterasi ketiga,

D3 digunakan sebagai data uji, sedangkan D1, D2, …Dk digunakan sebagai data

pelatihan dan seterusnya. Setiap sample D, hanya digunakan sekali sebagai data uji dan berkali-kali sebagai data pelatihan.

Untuk pengklasifikasian, pengukuran keakurasian dapat dihitung dengan cara : seluruh jumlah klasifikasi yang benar dari k iterasi, dibagi dengan seluruh data.

E. Mengukur Tingkat Keakuratan Penggolong (Classifier)

Keakuratan penggolong dapat diukur dari data uji. Keakuratan penggolong (jika diberikan data uji) adalah persentasi dari dari tuple data uji yang telah diprediksi dengan benar oleh penggolong.

(42)

adalah inputan pada baris m yang pertama dan kolom m yang pertama. CMi, j

menunjukkan jumlah tuple dari kelas i yang sudah dilabeli oleh penggolong sebagai kelas j.

Tabel 2.3 confusion matrix

Jika diberikan dua kelas, ada terminologi tuple positif dan tuple negatif. Benar positif merujuk pada tuple positif yang dilabeli oleh penggolong secara benar. Benar negatif merujuk pada tuple negatif yang dilabeli oleh penggolong secara benar. Salah positif merujuk pada tuple negatif yang dilabeli dengan tidak benar. Maka, Salah negatif merujuk pada tuple positif yang dilebeli dengan tidak benar. Sensitivitas (sensitivity) juga merujuk pada angka benar positif. Angka benar positif adalah ukuran dari tuple positif yang diidentifikasi dengan benar. Spesifikasi (specificity) merujuk pada angka benar negatif. Angka benar negatif adalah ukuran dari tuple negatif yang diidentifikasi dengan benar. Sebagai tambahan, diperlukan perhitungan ketelitian (precision) untuk mendapatkan persentasi dari tuple yang dilabeli sebagai ‘a’ yang sebenarnya adalah ‘a’.

_

(43)

_

_ _ ………...(2.15)

Dimana :

t_pos adalah jumlah benar positif.

pos adalah jumlah tuple positif.

t_neg adalah jumlah benar negatif.

neg adalah jumlah tuple negatif.

f_pos adalahjumlah salah positif.

Dengan demikian untuk menghitung keakuratan sebuah penggolong adalah

….(2.16)

F. Analisis Korelasi

Analisis korelasi merupakan salah satu dari metode statistik. Metode ini digunakan untuk menyelidiki hubungan antara dua buah variabel atau antar set variabel. Analisis korelasi mengukur seberapa besar hubungan antara dua variabel atau antar set variabel.

(44)

variabel dapat diklasifikasikan sebagai berikut.

Tabel 2.4 Tabel Interprestasi Besarnya Nilai Koresi

Nilai Korelasi Hubungan Korelasi

0,00 – 0,09 Diabaikan/tidak ada korelasi

0,10 – 0,29 Rendah

0,30 – 0,49 Moderat

0,50 – 0,70 Sedang

> 0,70 Sangat kuat

Untuk mengetahui hubungan antara dua variabel data yang berskala ordinal digunakan koefisien korelasi Rank Spearman dan Kendall’s Tau. Koefisien Pearson digunakan untuk mengetahui hubungan antara dua variabel data yang berskala interval.

Salah satu jenis korelasi adalah korelasi bivariat. Korelasi bivariat merupakan uji korelasi sederhana antara dua variabel.

Tabel 2.5 Tabel Contoh Hasil Analisis Korelasi di SPSS

(45)

0,05.

(46)

28

A. Identifikasi Sistem

Setiap tahun Universitas Sanata Dharma menerima calon mahasiswa baru

melalui tes masuk. Ada 3 gelombang tes masuk yaitu gelombang 1, gelombang 2,

dan gelombang 3. Calon mahasiswa yang mengikuti tes masuk berasal dari latar

belakang SMA yang berbeda-beda, dengan jurusan yang berbeda-beda pula.

Sebelum menjalani tes masuk, calon mahasiswa memilih maksimal 3 prodi sesuai

dengan keinginan mereka. Ketiga pilihan prodi tersebut ditempatkan pada pilihan

1, pilihan 2, dan pilihan 3. Ketika menjalani tes masuk, calon mahasiswa

menempuh 5 komponen tes, yaitu tes kemampuan numerik, penalaran verbal,

mekanik, hubungan ruang, dan bahasa Inggris. Semua keterangan tentang

data-data tersebut dikumpulkan dan didokumentasikan oleh pihak universitas.

Data PMB (Penerimaan Mahasiswa Baru) tersebut akan diteliti apakah

mempengaruhi keberhasilan studi mahasiswa yang bersangkutan. Keberhasilan

studi seorang mahasiswa dapat direpresentasikan dengan indeks prestasi

kumulatif. Untuk meneliti apakah ada keterkaitan antara data PMB dengan

prestasi akademik seorang mahasiswa, akan dilakukan proses penambangan data.

Penambangan data akan menemukan informasi/pengetahuan yang

mendeskripsikan mahasiswa dengan data PMB seperti apa yang mempunyai

prestasi akademik kurang/memuaskan/sangat memuaskan/dengan pujian.

(47)

mahasiswa prodi Teknik Informatika tahun 2000 sampai dengan tahun 2007. Data

tersebut dibagi menjadi 2 bagian dengan metode pengukuran menggunakan

cross-validation. Bagian pertama digunakan sebagai data pelatihan, dan bagian yang

lainnya digunakan sebagai data uji. Data pelatihan digunakan untuk membuat

sebuah classifier yang menjelaskan karakteristik data mahasiswa yang

mempunyai prestasi akademik kurang/memuaskan/sangat memuaskan/dengan

pujian. Melalui classifier tersebut akan dites sebuah record data yang diambil dari

kumpulan data uji. Maka, record bisa diklasifikasikan ke dalam klasifikasi

mahasiswa yang mempunyai nilai prestasi akademik kurang/memuaskan/sangat

memuaskan/dengan pujian.

B. Analisis Data Awal

Data mentah yang digunakan untuk penelitian ini adalah data PMB dan

data akademik mahasiswa Teknik Informatika yang didapat dari Biro

Administrasi Akademik (BAA) melalui Biro Administrasi dan Perencanaan

Sistem Informasi (BAPSI). Data diberikan dalam format ekstensi xls yang

terdiri dari 8 sheet. Sheet pertama menampung data-data mahasiswa Teknik

Informatika tahun 2007, sheet 2 sampai sheet 8 berturut-turut menampung

data-data mahasiswa Teknik Informatika tahun 2006, 2005, 2004, 2003,

2002, 2001, dan 2000. Data mahasiswa tersebut terdiri dari atribut Nomor,

Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA, Nilai

Tes Masuk Penalaran Verbal (PV), Nilai Tes Masuk Kemampuan Numerik

(48)

Ruang (HR), Nilai Tes Masuk Bahasa Inggris (BI), dan IPK Semester 4.

Pada sheet pertama, terdapat 92 data yaitu data mahasiswa yang

diterima di Prodi Teknik Informatika pada tahun 2007. Ada 45 record yang

mempunyai data tidak lengkap. Data yang tidak lengkap tersebut merupakan

data mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong, serta

data mahasiswa yang diterima di Prodi Teknik Informatika melalui jalur

prestasi. Mahasiswa yang masuk melalui jalur prestasi tidak mempunyai nilai

tes masuk karena seleksi dilakukan berdasarkan nilai rapor. Jadi, pada sheet 1

data yang tidak lengkap terdiri dari data pilihan 2, pilihan 3, nilai tes masuk

PV (Penalaran Verbal), nilai tes masuk KN (Kemampuan Numerik), nilai tes

masuk PM (Penalaran Mekanik), nilai tes masuk HR (Hubungan Ruang),

nilai tes masuk BI (Bahasa Inggris).

Pada sheet 2 yang menampung data mahasiswa Teknik Informatika

tahun 2006, terdapat 100 data, 41 diantaranya mempunyai data yang tidak

lengkap. Sama seperti sheet 1, data yang tidak lengkap merupakan data

mahasiswa yang atribut pilihan 2 dan atau atribut pilihan 3 kosong serta data

mahasiswa yang masuk melalui jalur prestasi.

Sheet 3 menampung data mahasiswa Teknik Informatika tahun 2005.

Sheet 3 terdapat 76 data. 27 diantaranya mempunyai data yang tidak lengkap.

Sama seperti sheet sebelumnya, data yang tidak lengkap merupakan data

(49)

Sheet 4 terdapat 68 data. 23 diantaranya mempunyai data yang tidak lengkap.

Sama seperti sheet sebelumnya, data yang tidak lengkap merupakan data

Sheet 5 menampung data mahasiswa Teknik Informatika tahun 2003.

Dari 66 data, ada 19 data yang memiliki atribut tidak lengkap. Data yang

tidak lengkap merupakan data mahasiswa yang atribut pilihan 2 dan atau

atribut pilihan 3 kosong serta data mahasiswa yang masuk melalui jalur

prestasi.

Sheet 6 menampung 67 data mahasiswa Teknik Informatika tahun

2002. 19 diantaranya mempunyai data yang tidak lengkap berupa atribut IPK

yang kosong, atribut pilihan 2 dan atau atribut pilihan 3 yang kosong, serta

atribut 5 komponen tes kosong.

Terdapat 106 data mahasiswa Teknik Informatika tahun 2001 pada

Sheet 7. Dari 106 data tersebut, terdapat 31 data yang memiliki atribut tidak

lengkap berupa atribut IPK yang kosong, atribut pilihan 2 dan atau atribut

pilihan 3 yang kosong, serta atribut 5 komponen tes kosong.

Sheet terakhir yaitu sheet 8 menampung data mahasiswa Teknik

Informatika tahun 2000. Ada 100 data pada sheet 8. 36 diantaranya memiliki

atribut yang tidak lengkap. Ada beberapa record yang tidak memiliki data

PMB sama sekali (seluruh atribut kosong kecuali atribut IPK). Hal lain

penyebab ketidaklengkapan atribut sama seperti beberapa sheet sebelumnya

(50)

yang kosong, serta atribut 5 komponen tes kosong.

1. Pembersihan Data

Pembersihan data (data cleaning) merupakan langkah awal dalam

proses penambangan data. Pada data mentah, terdapat beberapa record

yang mempunyai data yang tidak lengkap (missing value). Pada proses

pembersihan data, record yang mempunyai data yang tidak lengkap

tersebut dibuang.

Pada sheet 1 ada 45 record yang dibuang. 41 record dibuang pada

sheet 2, 27 record pada sheet 3, 23 record pada sheet 4, 19 record pada

sheet 5, 19 record pada sheet 6, 31 record pada sheet 7, dan 36 record

pada sheet 8.

2. Integrasi Data

Pada langkah ini, dilakukan proses penggabungan data. Data mentah

yang diterima disajikan secara terpisah untuk setiap tahunnya (disajikan

per sheet). Data yang disajikan secara terpisah tersebut disatukan dan

disimpan dalam satu tabel pada satu sheet.

3. Seleksi Data

Data yang sudah diintegrasikan dikenai proses seleksi data. Pada

proses seleksi data, dipilih atribut-atribut yang relevan untuk penelitian.

Data mentah yang didapat terdiri dari atribut-atribut berikut ini : Nomor,

Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA,

Nilai Tes Masuk PV (Penalaran Verbal), Nilai Tes Masuk KN

(51)

Tes Masuk HR (Hubungan Ruang), Nilai Tes Masuk BI (Bahasa Inggris),

dan IPK Semester 4. Atribut yang diperlukan untuk penambangan data

adalah : Gelombang, Pilihan 1, Pilihan 2, Pilihan 3, Jurusan SMA, Nilai

Tes Masuk PV (Penalaran Verbal), Nilai Tes Masuk KN (Kemampuan

Numerik), Nilai Tes Masuk PM (Penalaran Mekanik), Nilai Tes Masuk

HR (Hubungan Ruang), Nilai Tes Masuk BI (Bahasa Inggris), dan IPK

Semester 4. Atribut nomor dan asal SMA tidak dipakai karena kedua

atribut tersebut tidak relevan untuk penelitian.

Pada proses ini juga dilakukan analisis korelasi untuk analisis

variabel dengan menggunakan aplikasi SPSS. Analisis korelasi dilakukan

untuk memastikan apakah 10 atribut yang digunakan untuk penambangan

data bersifat independen satu sama lain. Artinya, antara atribut satu dengan

atribut yang lain tidak saling mempengaruhi.

Analisis korelasi digunakan untuk menyelidiki hubungan antara dua

buah variabel. Analisi korelasi ini akan mengukur seberapa besar

hubungan antara dua variabel atau antar set variabel. Berikut ini adalah

hasil analisis korelasi untuk 10 atribut prediktor yaitu atribut Gelombang,

Pilihan 1, Pilihan 2, Pilihan 3, Asal SMA, Jurusan SMA, Nilai Tes Masuk

PV (Penalaran Verbal), Nilai Tes Masuk KN (Kemampuan Numerik),

Nilai Tes Masuk PM (Penalaran Mekanik), Nilai Tes Masuk HR

(52)

(53)

Koefisien korelasi yang digunakan adalah koefisien Pearson karena

data yang diuji berskala interval. Uji dilakukan dua arah atau dua sisi.

Variabel yang dianggap layak untuk digunakan dalam penelitian dengan

menggunakan algoritma naïve bayesian adalah variabel yang nilai

korelasinya rendah/nilai korelasinya dapat diabaikan. Nilai korelasi dua

variabel rendah berarti kedua variabel tersebut independen satu sama lain.

Nilai korelasi yang rendah atau nilai korelasi yang dapat diabaikan adalah

nilai korelasi yang berkisar antara 0,00 hingga 0,09.

Dari tabel 3.1 dapat dilihat bahwa ada beberapa atribut yang

mempunyai hubungan korelasi dengan atribut lain. Berikut rangkuman

analisisnya.

Tabel 3.2 Tabel rangkuman analisis korelasi

Atribut Independen terhadap

atribut Berkorelasi dengan atribut

Gelombang Pilihan3, Jurusan_SMA, PV, PM, HR

Pilihan1, Pilihan2, KN, BI

Pilihan1 Jurusan_SMA, PV, KN, PM, BI

Gelombang, Pilihan2, Pilihan3, HR,

Pilihan2 Pilihan3, PV, KN, BI Gelombang, Pilihan1, Jurusan_SMA, HR, PM

Pilihan3 Jurusan_SMA, PV, KN, BI

Gelombang, Pilihan1, Pilihan2, PM, HR

Jurusan_SMA PV, PM, HR Gelombang, Pilihan1,

Pilihan2, Pilihan3, KN, BI

PV BI Gelombang, Pilihan1,

(54)

Jurusan_SMA, KN, PM, HR

KN BI Gelombang, Pilihan1,

Pilihan2, Pilihan3,

Jurusan_SMA, PV, PM, HR

PM BI Gelombang, Pilihan1,

Pilihan2, Pilihan3,

Jurusan_SMA, PV, KN, HR

HR BI Gelombang, Pilihan1,

Pilihan2, Pilihan3,

Jurusan_SMA, PV, KN, PM

Dari tabel 3.2 didapat 6 atribut yang saling independen satu sama lain,

yaitu atribut : Gelombang, Pilihan3, Jurusan_SMA, PV, PM, HR.

1. Transformasi Data

Pada langkah transformasi data, data nilai akademik mahasiswa

dklasifikasikan menjadi memuaskan/sangat memuaskan/dengan pujian

sesuai dengan buku panduan akademik mahasiswa prodi Teknik

Informatika dan dengan tambahan kategori IPK kurang untuk mahasiswa

yang mempunyai IPK < 2, 00. Berikut klasifikasinya:

Tabel 3.3 Transformasi Data IPK

IPK Klasifikasi

3,51 - 4,00 Dengan Pujian

2,76 - 3,50 Sangat Memuaskan

2,00 – 2,75 Memuaskan

(55)

A. Perancangan Umum Sistem

1. Masukan Sistem

Seperti telah disebutkan sebelumya, data yang akan diteliti dibagi

menjadi dua bagian yaitu data yang digunakan untuk data pelatihan

dan data yang digunakan untuk data uji. Kedua data tersebut akan

menjadi masukan bagi sistem. Data pelatihan terdiri dari 7 atribut, 6

atribut yaitu Gelombang, Pilihan3, Jur_SMA, final_tes_PV,

final_tes_PM, final_tes_HR adalah atribut input, sedangkan atribut

ke-7 yaitu IPK merupakan atribut target. Berikut ini adalah masukan

untuk data pelatihan.

Tabel 3.4 Deskripsi Masukan Untuk Data Pelatihan

No Nama Atribut Keterangan Nilai Atribut

1 Gelombang Gelombang satu, dua, tiga, kerjasama 2 Pilihan3 Pilihan ke 3 AKT, BK, FAR, FIS, IND,

IPAK, MAN, MAT, MEKA, PAK, PBI, PBSID, PEK, PFIS, PGSD, PMAT, PSEJ, PSI, SEJ, SING, TE, TI, TM

3 jur_SMA Jurusan

SMA

SMU/MA IPA, SMU/MA IPS, SMU/MA /DUDAYA/

BAHASA, SMK (TEKNIK/ STM), SMK

(EKONOMI/SMEA/SMKK), SMF.

4 final_tes_PV Nilai final

tes masuk penalaran verbal

0, 00 – 10, 00

5 final_tes_PM Nilai final

tes masuk penalaran mekanik

0, 00 – 10, 00

6 final_tes_HR Nilai final

tes masuk hubungan

(56)

ruang

7 IPK IPK

mahasiswa pada

semester ke 4

Kurang, Memuaskan, sangat memuaskan, dengan pujian

Sedangkan masukan untuk data uji hampir sama dengan masukan

untuk data pelatihan, hanya saja masukan untuk data uji dianggap

tidak mempunyai atribut IPK; yang ada adalah atribut prediksi.

Masukan untuk data uji juga terdiri dari terdiri dari 7 atribut, 6 atribut

yaitu Gelombang, Pilihan3, Jur_SMA, final_tes_PV, final_tes_PM,

final_tes_HR adalah atribut input dan atribut ke-7 adalah prediksi.

Atribut prediksi digunakan untuk menyimpan hasil uji yang dibuat

oleh penggolong (classifier). Berikut ini adalah masukan untuk data

uji.

Tabel 3.5 Deskripsi Masukan Untuk Data Uji

No Nama Atribut Keterangan Nilai Atribut

1 Gelombang Gelombang satu, dua, tiga, kerjasama 2 Pilihan3 Pilihan ke 3 AKT, BK, FAR, FIS, IND,

IPAK, MAN, MAT,

MEKA, PAK, PBI, PBSID, PEK, PFIS, PGSD, PMAT, PSEJ, PSI, SEJ, SING, TE, TI, TM

3 jur_SMA Jurusan

SMA

SMU/MA IPA, SMU/MA IPS, SMU/MA /DUDAYA/ BAHASA, SMK

(TEKNIK/ STM), SMK (EKONOMI/SMEA/SMKK ), SMF.

4 final_tes_PV Nilai final

tes masuk penalaran verbal

(57)

5 final_tes_PM Nilai final tes masuk penalaran mekanik

0, 00 – 10, 00

6 final_tes_HR Nilai final

tes masuk hubungan ruang

0, 00 – 10, 00

5 Prediksi Nilai awal

adalah kosong. Nantinya akan berisi prediksi dari nilai IPK mahasiswa pada semester ke 4 Kurang, Memuaskan, sangat memuaskan, dengan pujian

1.1.Perancangan Struktur Data

Struktur Data yang digunakan untuk menyimpan data tersebut

berupa List. Data pelatihan ditampung di List Pelatihan dan data

uji ditampung di List data Uji. Ada 7 list yang digunakan untuk

menampung data mahasiswa.

Tabel 3.6 Tabel List Data Mahasiswa

Nama List Fungsi

List Gelombang digunakan untuk menampung

data gelombang masuk mahasiswa baru

List Pilihan3 digunakan untuk menampung

data mahasiswa baru yaitu

pilihan prodi ke 3

list Jur_SMA digunakan untuk menampung

(58)

di SMA

list tes_PV digunakan untuk menampung

data nilai tes masuk mahasiswa

untuk komponen penalaran verbal

list tes_PM digunakan untuk menampung

data nilai tes masuk mahasiswa untuk komponen penalaran mekanik

list tes_HR digunakan untuk menampung

data nilai tes masuk mahasiswa

untuk komponen hubungan ruang

list IPK digunakan untuk menampung

data IPK mahasiswa pada semester 4

2. Proses Sistem

Masukan sistem akan diproses dengan algoritma naïve bayesian.

Berikut ini adalah proses dari sistem :

a. Data masukan akan dibagi ke dalam beberapa fold atau partisi

tertentu (pembagian partisi berdasarkan inputan user) yang

jumlah data untuk setiap partisi adalah sama.

b. Misal user menginputkan jumlah partisi 10 ; pada iterasi

pertama, partisi 1 akan dijadikan sebagai data uji dan partisi 2

– partisi 10 digunakan sebagai data pelatihan. Pada itersai

(59)

dan partisi 3 – partisi 10 akan dijadikan data pelatihan. Pada

iterasi ketiga, partisi 3 akan dijadikan sebagai data uji,

sedangkan partisi 1, partisi 2, partisi 4 – partisi 10 akan

dijadikan data pelatihan. Begitu seterusnya hingga partisi 10

digunakan sebagai data uji dan partisi 1- partisi 9 digunakan

sebagai data pelatihan.

c. Deklarasikan kelas-kelas yang muncul dari atribut target.

Misal C1 untuk kelas IPK=kurang, C2 untuk IPK=memuaskan,

C3 untuk kelas IPK=sangat memuaskan, C4 untuk kelas

IPK=dengan pujian.

d. Untuk setiap record pada partisi data uji lakukan perhitungan

menggunakan data dari sekumpulan partisi data pelatihan

sebagai berikut:

d.1. Hitung Likelihood masing-masing atribut untuk setiap

kelas C1, C2, C3, C4.

d.1.1. Cek Atribut apakah atribut kategorikal atau atribut

kontinyus.

d.1.1.1. Jika Atribut kategorikal, perhitungan

likelihood merujuk pada rumus 2.10

berikut ini

P(xk | Ci) = |xki|/ Nci .

Implementasi rumus 2.10 pada data dapat

(60)

d.1.1.2. Jika Atribut kontinyus, perhitungan

likelihood merujuk pada rumus 2.11

berikut ini

Implementasi rumus 2.11 pada data dapat

dilihat pada lampiran.

d.2. Hitung probabilitas prior untuk masing-masing kelas C1,

C2, C3, C4. Probabilitas prior dari kelas Cx dapat dihitung

dengan cara membagi jumlah Cx dengan jumlah seluruh

sampel.

d.3. Hitung probabilitas posterior sesuai dengan rumus 2.4

sebagai berikut

d.4. Bandingkan hasil perhitungan probabilitas posterior untuk

kelas C1, C2, C3, C4. Penggolong naïve Bayesian

memprediksi sebuah record ke kelas yang mempunyai

nilai probabilitas posterior tertinggi.

3. Keluaran Sistem

Setiap tahapan proses dalam program mempunyai keluaran sebagai

berikut:

a. Proses input data menampilkan:

1) Jumlah sampel data keseluruhan.

(61)

3) Detail dari atribut masukan dan atribut target berupa :

a) Nilai-nilai kejadian dari masing-masing atribut masukkan

dan atribut target.

b) Jumlah masing-masing nilai kejadian dari atribut masukkan

dan atribut target.

b. Proses klasifikasi menampilkan:

1) Jumlah fold yang digunakan untuk proses klasifikasi.

2) Kelas-kelas yang akan diklasifikasi.

3) Nomor record data uji pada masing-masing fold (yang artinya :

nomor record yang tidak dicantumkan adalah sebagai data

pelatihan).

4) Hasil prediksi untuk setiap record pada data uji.

5) Jumlah data yang bisa diklasifikasikan dengan benar dan

jumlah data yang gagal diklasifikasikan dengan benar.

6) Tingkat validitas prediksi.

4. Diagram Model Use Case

(62)

4.1 Narasi Use Case

Pengarang : Asteria Indharlina Tanggal : 13 November 2009

Versi :

Nama Use Case Input Data Jenis Use Case :

Persyaratan Bisnis

Use Case ID KNB-001

Prioritas Tinggi

Sumber -

Aktor Bisnis Primer Petugas Aktor pendukung lainnya - Stakeholder lain yang berhubungan -

Deskripsi Use case ini mendeskripsikan suatu kejadian yang

dilakukan oleh petugas. Petugas menginputkan data ke sistem untuk dilakukan proses perhitungan dengan algoritma Naïve Bayesian.

Prakondisi File data yang diinputkan adalah file excel dengan

format extention .xls.

Pemicu -

Langkah Umum Kegiatan aktor Respon Sistem

Langkah 1: Petugas memilih sub menu input data pada sistem.

Langkah 3: Petugas mem-browse file data excel.

Langkah 2 : Sistem merespon dengan menampilkan halaman input data.

Langkah 4: Sistem merespon dengan menampilkan data pada tabel yang telah

(63)

berupa nama atribut, nilai kejadian atribut dan jumlah dari masing-masing nilai kejadian atribut.

Langkah alternatif -

Kesimpulan Use case ini selesai jika sistem sudah menampilkan

data mahasiswa pada tabel yang telah disediakan, atribut pada tabel disediakan beserta informasi-informasi tentang jumlah sampel data keseluruhan, jumlah atribut dan detail atribut

Pascakondisi Data pada tabel tersebut akan diolah untuk dikenai

algoritma naïve bayesian.

Aturan bisnis -

Batasan dan spesifikasi Implementasi

-

Asumsi -

Masalah terbuka -

Versi :

Nama Use Case Lihat Detail Atribut Jenis Use Case :

Persyaratan Bisnis

Sumber -

Aktor Bisnis Primer Petugas Aktor pendukung lainnya - Stakeholder lain yang berhubungan -

dilakukan oleh petugas. Ketika petugas melakukan aksi klik pada salah satu cell tabel detail atribut, maka sistem akan menampilkan detail atribut berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.

Prakondisi Petugas sudah mengeksekusi use case “Input Data”.

Pemicu -

Langkah Umum Kegiatan Aktor Respon Sistem

(64)

Langkah 2 : Petugas melakukan aksi klik (pilih atribut yang akan dilihat detail

informasinya) pada salah satu cell tabel detail atribut.

Langkah 4 : Petugas melihat detail atribut.

menampilkan atribut pada tabel detail atribut.

Langkah 3 : Sistem menampilkan informasi berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.

Detail informasi dari atribut yang dipilih berupa nama atribut, nilai kejadian atribut dan jumlah nilai dari masing-masing nilai kejadian atribut.

Pascakondisi -

Aturan bisnis -