KOMPARASI ALGORITMA KLASIFIKASI DATA MINING UNTUK MENENTUKAN KELAYAKAN PEMBERIAN BEASISWA TESIS AGUSTIENA MERDEKAWATI

(1)

KOMPARASI ALGORITMA KLASIFIKASI DATA MINING UNTUK MENENTUKAN KELAYAKAN

PEMBERIAN BEASISWA

TESIS

AGUSTIENA MERDEKAWATI 14000327

PROGRAM PASCASARJANA MAGISTER ILMU KOMPUTER SEKOLAH TINGGI MANAJEMEN INFORMATIKA DAN KOMPUTER

NUSA MANDIRI JAKARTA

2012

(2)

ii

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri

(3)

iii

(4)

iv

KATA PENGANTAR

Puji syukur alhamdullillah, penulis panjatkan kehadirat Allah, SWT, yang telah melimpahkan rahmat dan karunia-Nya, sehingga pada akhirnya penulis dapat menyelesaikan tesis ini tepat pada waktunya. Dimana tesis ini penulis sajikan dalam bentuk buku yang sederhana. Adapun judul tesis, yang penulis ambil sebagai berikut “komparasi algoritma klasifikasi data mining untuk menentukan kelayakan pemberian beasiswa”.

Tujuan penulisan tesis ini dibuat sebagai salah satu untuk mendapatkan gelar Magister Ilmu Komputer (M.Kom) pada Program Pascasarjana Magister Ilmu Komputer Sekolah Tinggi Manajemen Informatika dan Komputer Nusa Mandiri (PPs MIK STMIK Nusa Mandiri).

Tesis ini diambil berdasarkan hasil penelitian atau riset mengenai penerapan algoritma data mining klasifikasi menggunakan metode algoritma C4.5, naïve bayes, neural network, nearest neighbor, dan algoritma C4.5 berbasis PSO yang penulis lakukan pada Baitul Maal. Penulis juga lakukan mencari dan menganalisa berbagai macam sumber referensi, baik dalam bentuk jurnal ilmiah, buku-buku literatur, internet, dll yang terkait dengan pembahasan pada tesis ini.

Penulis menyadari bahwa tanpa bimbingan dan dukungan dari semua pihak dalam pembuatan tesis ini, maka penulis tidak dapat menyelesaikan tesis ini tepat pada waktunya. Untuk itu ijinkanlah penulis kesempatan ini untuk mengucapkan ucapan terima kasih yang sebesar-besarnya kepada :

1. Allah SWT yang selalu mencurahkan nikmat dan RahmatNya kepada saya sehingga saya dapat menyelesaikan tesis ini tepat pada waktunya.

2. Bapak Dr. Ir. Prabowo Pudjo Widodo, MS selaku pembimbing tesis yang telah menyediakan waktu, pikiran danm tenaga dalam membimbing penulis dalam menyelesaikan tesis ini.

3. Orang tua tercinta yang telah memberikan dukungan material dan moral kepada penulis.

4. Seluruh staf pengajar (dosen) PPs MIK STMIK Nusa Mandiri yang telah memberikan pelajaran yang berarti bagi penulis selama menempuh studi.

5. Seluruh staf dan karyawan PPs MIK STMIK Nusa Mandiri yang telah melayani penulis dengan baik selama kuliah.

6. Teman-teman angkatan periode 5 STMIK Nusa Mandiri.

7. Teman-teman dan sahabat tercinta yang banyak membantu penulis.

Akhir kata semoga tesis ini dapat bermanfaat bagi penulis khususnya dan bagi para pembaca yang berminat pada umumnya.

Jakarta, 28 Februari 2012

Agustiena Merdekawati Penulis

(5)

v

(6)

vi

DAFTAR ISI

Halaman

HALAMAN SAMPUL ... i

HALAMAN JUDUL ... ii

HALAMAN PERNYATAAN ORISINALITAS ... iii

HALAMAN PENGESAHAN ... iv

KATA PENGANTAR ... v

HALAMAN PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... vii

ABSTRAK ... viii

ABSTRACT ... ix

DAFTAR ISI ... x

DAFTAR TABEL ... xii

DAFTAR GAMBAR ... xix

DAFTAR LAMPIRAN ... xxv

BAB 1 PENDAHULUAN ... 1

1.1. Latar Belakang Penulisan ... 1

1.2. Rumusan Masalah ... 2

1.3. Tujuan Penelitian ... 2

1.4. Ruang Lingkup Penelitian ... 3

1.5. Manfaat Penelitian ... 3

1.6. Hipotesis Penelitian………4

1.7. Sistematika Penulisan ... 4

BAB 2 LANDASAN/KERANGKA PEMIKIRAN ... 6

2.1. Tinjauan Studi ... 6

2.2. Tinjauan Pustaka ... 7

BAB 3 METODE PENELITIAN... 24

3.1. Desain Penelitian ... 24

3.2. Businness/Research Understanding Phase ... 24

3.3. Data Understanding...25

3.4. Data Preparation...27

3.5. Modeling...29

3.6. Evaluation...44

3.7. Deployment...44

3.8. Jadwal Penelitian...44

BAB 4 HASIL PENELITIAN DAN PEMBAHASAN ... 47

4.1. Hasil Pengukuran Penelitian ... 47

4.1.1. Hasil Penelitian ... 47

4.1.2. Evaluasi dan Validasi Model ... 75

4.2. Analisis Evaluasi Komparasi Model ... 163

4.3. Implikasi Penelitian ... 165

4.3.1. Implikasi Sistem ... 165

4.3.1. Implikasi Manajerial ... 165

4.3.1. Implikasi Penelitian Lanjutan ... 165

(7)

vii

BAB 5 PENUTUP... 166

5.1. Kesimpulan ... 166

5.2. Saran ... 166

DAFTAR REFERENSI ... 167 LEMBAR KONSULTASI BIMBINGAN TESIS

LAMPIRAN-LAMPIRAN

(8)

viii

BAB 1

PENDAHULUAN

1.1.Latar Belakang Penulisan

Seperti yang dituangkan dalam Undang-Undang Dasar 1945 pasal 31 (1) bahwa tiap warga Negara berhak mendapatkan pengajaran. Akan tetapi untuk mendapatkan pendidikan itu semakin tidak terjangkau atau sangatlah mahal, terutama bagi yang bertingkat ekonomi menengah kebawah, baik itu tingkat SD, SMP, SMA, bahkan perguruan tinggi.

Beasiswa merupakan salahsatu solusi untuk mengatasi masalah biaya bagi mereka yang kurang mampu. Beasiswa adalah pemberian berupa bantuan keuangan yang diberikan kepada perorangan yang bertujuan untuk digunakan demi keberlangsungan pendidikan yang ditempuh. Pemberi beasiswa, yaitu lembaga pemerintahan, perusahaan atau yayasan. Pemberian beasiswa ini sangat penting, guna memberikan ketenangan mereka dalam mengikuti kegiatan belajar-mengajar.

Sehingga dengan adanya beasiswa dapat menciptakan pengaruh yang positif bagi mereka, yaitu :

1. Mereka tidak perlu lagi khawatir dengan tagihan biaya pendidikan, 2. Anak tersebut berusaha untuk mendapatkan nilai dan prestasi yang tinggi

Setiap tahunnya yayasan baitul maal menyediakan beasiswa bagi siswa/siswi di Indonesia yang kurang mampu dan berprestasi. Akan tetapi tidak semua pendaftar mendapatkan beasiswa. Sistem seleksi beasiswa yang tidak akurat menyebabkan beasiswa salah sasaran.

Penelitian menganai analisis kelayakan pemberian beasiswa dengan metode klasifikasi datamining telah banyak dilakukan, namun sangat jarang sekali yang menganalisi kelayakan pemberian beasiswa untuk SD, SMP, dan SMA dan belum diketahui metode klasifikasi data mining yang paling akurat dalam melakukan analisis kelayakan beasiswa tersebut.

1.2.Rumusan Masalah

Berdasarkan permasalahan tersebut maka rumusan masalah dalam penelitian ini terdapat beberapa metode klasifikasi data mining, yang masing- masing mempunyai keakuratan yang berbeda-beda pada proses penentuan beasiswa bagi SD, SMP, dan SMA.

Pertanyaan penelitian :

Bagaimana akurasi metode klasifikasi data mining algoritma C4.5, naïve bayes, neural network, nearest neighboard, dan algoritma C4.5 berbasis PSO untuk penentuan beasiswa bagi SD, SMP, dan SMA?

1.3.Tujuan Penelitian

Penelitian ini bertujuan untuk komparasi metode klasifikasi data mining dan memilih metode klasifikasi data mining yang paling akurat dalam penentuan seleksi penerimaan beasiswa bagi SD, SMP, dan SMA.

1.4.Ruang Lingkup Penelitian

(9)

ix

Penelitian ini dilakukan di baitul Maal, pada tahun 2010 bagi SD kelas 1 sampai dengan kelas 6, SMP kelas 7 sampai dengan kelas 9, dan SMA kelas 10 sampai dengan kelas 12. Ruang lingkup dalam penelitian ini dibatasi pada perbandingan metode klasifikasi data mining algoritma C4.5, naïve bayes, neural network, nearest neighboard, dan algoritma C4.5 berbasis PSO dengan cara menganalisis sejumlah atribut yang menjadi parameter dalam penentuan seleksi beasiswa, kemudian mengevaluasi hasil perbandingan tiap metode untuk mengetahui metode klasifikasi data mining mana yang paling akurat.

1.5.Manfaat Penelitian

Manfaat penelitian ini adalah:

a. Manfaat Praktis, hasil penelitian ini diharapkan agar dapat digunakan oleh Baitul Maal dalam penentuan seleksi pemberian beasiswa bagi SD, SMP, dan SMA.

b. Manfaat teoritis, hasil penelitian ini diharapkan dapat memberikan sumbangan bagi penelitian yang berkaitan dengan komparasi metode klasifikasi data mining, khususnya dalam penentuan seleksi pemberian beasiswa bagi SD, SMP, dan SMA.

c. Manfaat kebijakan,dari penelitian ini diharapkan dapat memberikan hasil yang lebih akurat sehingga memudahkan staff baitul Maal untuk menyeleksi proses penerimaan beasiswa.

1.6.Hipotesis Penelitian

Hipotesis dalam penelitian ini diduga metode klasifikasi data mining yang paling akurat dalam penentuan seleksi beasiswa bagi SD, SMP, dan SMA, dengan algoritma yang dipilih dalam penelitian ini, yaitu metode klasifikasi data mining algoritma C4.5, naïve bayes, neural network, nearest neighboard, dan algoritma C4.5 berbasis PSO.

1.7.Sistematika Penulisan Penulisan ini terdiri dari:

Bab I Pendahuluan

Pada bagian ini berisi latar belakang penulisan, permasalahan, mengenai seleksi penerimaan beasiswa, kemudian pemecahan masalah, dan tujuan dari dilakukannya penelitian ini.

Bab II Landasan Teori

Pada bab ini berisi tentang teori yang melandasi penelitian yaitu mengenai lembaga pemberi beasiswa serta metode klasifikasi data mining. Dibahas juga contoh dalam studi kasus dan penyelesaiannya untuk tiap metode klasifikasi data mining.

Bab III Metode Penelitian

Pada bab ini membahas tentang metode pengumpulan data dan metode penelitian yang digunakan. Penelitian di sini adalah membuat model dengan metode klasifikasi data mining untuk memprediksi kelayakan penerimaan beasiswa.

Bab IV Hasil dan Pembahasan

Pada bab ini dilakukan pengujian model yang dihasilkan dari bab sebelumnya.

Pengujian dilakukan dengan mengukur keakuratan kinerja tiap metode

(10)

x

menggunakan beberapa metode pengujian kemudian hasil pengukurannya dikomparasi untuk melihat akurasi dari kelima metode tersebut.

Bab V Penutup

Pada bab ini dibuat kesimpulan dari pembahasan pada bab-bab sebelumnya dan saran-saran untuk penelitian selanjutnya.

(11)

xi

BAB 2

LANDASAN/KERANGKA PEMIKIRAN

2.1. Tinjauan Studi

Berikut ini adalah beberapa penelitian terdahulu yang berkaitan dengan tema komparasi algoritma data mining, secara garis besar tinjauan pustaka dalam tesis ini meliputi :

a. Penelitian yang berjudul Application and Comparison of Classification Techniques in Controlling Credit Risk yang dilakukan oleh Lan Yu,dkk (Liao, 2007)

Pembahasan mengenai komparasi teknik klasifikasi pada data mining dengan model model statistik tradisional ( LDA, QDA dan Logistic regression), k-nearest neighbors, Bayesian Network(Naïve Bayes dan TAN), Decision trees (C4.5), Associative Classif ication (CBA), suatu neural network dan support vector machines (SVM), dan menerapkan model tersebut kedalam pengendalian risiko kredit. Penelitian ini dilakukan pada 244 perusahaan terutama pada bidang industri dan bank niaga di Cina.

Penelitian ini untuk memverifikasikan dan membandingkan komparasi kinerja metode tersebut, dengan menggunakan kurva ROC dan metode Delong-Person. Hasil dari pengukuran kinerja yang dilakukan tersebut, diketahui model statistika tradisional menghasilkan nilai keakuratan paling kecil, C.45 atau SVM kinerjanya kurang, dan CBA memberikan hasil yang terbaik untuk memberikan nilai kelayakan pinjam dalam kaitan dengan kemungkinan meramalkan dan interpretabilas.

b. Credit Scoring Model Based on the Decission Tree and The Simulated Annealing Algorithm (Jiang,2008)

Pada penelitian ini, sudah banyak metode yang digunakan salah satunya adalah decision tree algoritma C4.5, menurut Jiang dengan menggunakan metode algoritma C4.5 kurang memberikan hasil yang lebih efektif sehingga diperlukan kolaborasi menggunakan Algoritma Simulated Annealing sehingga hasil yang dicapai lebih efisien dan efektif.

2.2. Tinjauan Pustaka

Dalam penulisan tesis ini, penulis melakukan tinjauan studi berdasarkan buku-buku dan jurnal yang berhubungan dengan pemberian beasiswa dan yang berhubungan dengan metode yang dipakai.

2.2.1. Beasiswa

Beasiswa adalah penghasilan bagi yang menerimanya (Wibowo,dkk, 2009).

Dalam ketentuan pasal 4 ayat (1) UU PPh/2000 pengertian penghasilan (Wibowo,dkk, 2009) adalah tambahan kemampuan ekonomis dengan nama dan dalam bentuk apapun yang diterima atau diperoleh dari sumber Indonesia atau luar Indonesia yang dapat digunakan untuk konsumsi atau menambah kekayaan wajib pajak (WP).

2.2.2. Data Mining

(12)

xii

Data Mining adalah proses penemuan pola dalam data (Witten, 2011). Data Mining adalah proses menemukan korelasi baru yang bermakna, pola dan tren dengan memilah-milah sejumlah besar data yang tersimpan dalam repository, menggunakan teknologi penalaran pola serta teknik-teknik statistic dan matematika (Larose, 2005).

Data Mining adalah sebuah proses, yang mana dalam melakukan prosesnya harus sesuai dengan prosedur dari proses tersebut, yaitu CRISP-DM (Cross- Industry Standard Process for Data Mining), yang terdiri dari keseluruhan proses, preprosesing data, pembentukan model, model evaluasi, dan tahap akhir penyebaran model (Larose, 2005).

Dalam penelitian ini akan dilakukan komparasi antara decision tree (algoritma C4.5), Naïve Bayes, Neural Network, k-nearest neighbor, dan algoritma C4.5 berbasis PSO (Particle Swarm Optimization) yang digunakan untuk data siswa yang mendapatkan beasiswa.

2.2.3 Algoritma C4.5

Algoritma c4.5 adalah suatu deretan algoritma untuk permasalahan klasifikasi didalam sebuah mesin dan himpunan data. Dengan nilai data yang bervariasi , dimana kejadian diuraikan oleh koleksi atribut dan mempunyai salah satu dari satu set kelas yang eksklusif, algoritma C4.5 yaitu suatu pemetaan dari atribut menilai ke kelas yang dapat diberlakukan bagi menggolongkan kejadian tak terlihat baru. (wu, 2009).

Algoritma C4.5 ini memiliki kelebihan, yaitu (Gorunescu, 2011) : mudah dimengerti, fleksibel dan menarik karena dapat di sajikan dalam bentuk gambar (pohon keputusan).

Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam algoritma C4.5 (Larose, 2005) yaitu :

1. Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan dalam kelas-kelas tertentu.

2. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan terpilih, dengan cara menghitung nilai gain dari masing-masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama. Sebelum menghitung nilai gain dari atribut, hitung dahulu nilai entropy. Untuk menghitung nilai entropy digunakan rumus :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑^𝑛_𝑖=1− 𝑝𝑖 log₂𝑝𝑖 (2.1) Keterangan :

S= Himpunan kasus n = jumlah partisi S Pi = proporsi Si terhadap S

3. Kemudian hitung nilai gain menggunakan rumus : 𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ^|𝑆𝑖|

𝑆

𝑛𝑖=1 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) (2.2) Keterangan :

S = Himpunan Kasus A = Fitur

n = jumlah partisi atribut A

(13)

xiii

|Si| = Proporsi Si terhadap S

|S| = jumlah kasus dalam S

4. Ulangi langkah ke 2 dan langkah ke 3 hingga semua record terpatisi 5. Proses partisi pohon keputusan akan berhenti saat :

a. semua record dalam simpul N mendapat kelas yang sama.

b. Tidak ada atribut didalam record yang dipartisi lagi c. Tidak ada record didalam cabang yang kosong 2.2.4 Naïve Bayes

Naïve bayes (Wu, 2009), disebut juga dengan idiot’s bayes, simple bayes, dan independence bayes, adalah metode yang baik, karena mudah dibuat, tidak membutuhkan skema estimasi parameter perulangan yang rumit, ini berarti dapat diaplikasikan untuk data set berukuran besar.

Klasifikasi bayes (Kusrini, 2009) adalah pengklasifikasian statistic yang dapat digunakan untuk memprediksi probabilitas keanggotaan suatu kelas.

Klasifikasi Bayes didasarkan pada teorema bayes (Bramer, 2007), diambil dari nama seorang ahli matematika. Dengan teorema sebagai berikut :

𝑃(𝑥|𝑦) = ^𝑃(𝑦|𝑥) 𝑃(𝑥)

𝑃(𝑦) (2.3) Keterangan :

y = data dengan kelas yang belum diketahui

x = hipotesis data y merupakan suatu kelas spesifik

P(x|y) = probabilitas hipotesis x berdasarkan kondisi y (posterior probability) P(x) = probabilitas hipotesis x (prior probability)

P(y|x) = probabilitas y berdasarkan kondisi pada hipotesis x P(y) = probabilitas y

Naïve Bayes adalah penyederhanaan metode bayes. Teorema bayes disederhanakan menjadi:

𝑃(𝑥|𝑦) = 𝑃(𝑦|𝑥) 𝑃(𝑥) (2.4)

2.2.5 Neural Network

Menurut kohonen neural network dibuat pertama kali oleh Warren Mc Culloh dan Walter Pitts (1994) dan dianggap sebagai basis neural network modern saat ini (Gorunescu,2011)

Neural network dimaksudkan untuk mensimulasikan perilaku system biologi susunan saraf manusia, yang terdiri dari sejumlah besar unit pemroses yang disebut neuron, yang beroperasi secara parallel (Alpayidin, 2010)

Multilayer perceptron (MLP) (Vercellis, 2009) disebut juga multilayer feedforward neural network merupakan algoritma yang paling luas digunakan.

MLP terdiri dari input layer, hidden layer, dan output layer. Berikut penjelasan dari masing-masing layer tersebut :

1. Input Layer

Input layer untuk menerima nilai masukkan dari tiap record pada data.

Jumlah simpul input sama dengan jumlah variable predictor 2. Hidden Layer

(14)

xiv

Hidden Layer mentranformasikan nilai input didalam network. Tiap simpul pada hidden layer terhubung dengan simpul-simpul pada Hidden Layer sebelumnya atau dari simpul-simpul pada input layer dan kesimpul-simpul pada Hidden Layer berikutnya atau kesimpul-simpul pada output layer.

Jumlah hidden layer bisa berapa saja.

3. Output Layer

Garis yang terhubung dengan Output layer berasal dari hidden layer atau input layer dan mengembalikan nilai keluaran yang bersesuaian dengan variable prediksi. Keluaran dari output layer biasanya merupakan nilai floating antara 0 sampai 1.

Backpropagation (Kusrini, 2009) bekerja melalui proses secara iterative menggunakan data training, membandingkan nilai prediksi dari jaringan dengan setiap data yang terdapat pada data training. Dalam setiap proses, bobot relasi dalam jaringan dimodifikasi untuk meminimalkan nilai Mean Squared Error (MSE) antara nilai prediksi dari network dengan nilai sesungguhnya. Modifikasi relasi neural network tersebut dilakukan dengan arah mundur, dari output layer pertama dari hidden layer sehingga algoritma ini disebut backpropagation.

Menurut Myatt(Myatt,2007), langkah algoritma backpropagation adalah sebagai berikut :

1. Inisialisasikan bobot jaringan secara acak (baiasanya antara -0.1 sampai dengan 1.0)

2. Untuk setiap data pada data training, hitung input untuk simpul berdasarkan nilai input dan bobot jaringan saat itu. Dengan menggunakan rumus :

𝐼𝑛𝑝𝑢𝑡_𝑗 = ∑^𝑛_𝑖=1𝑂_{𝑖 𝑊}_𝑖𝑗+ □_𝑗 (2.5) Keterangan :

Oi = Output simpul I dari layer sebelumnya

Wij = bobot relasi dari simpul I pada layer sebelumnya ke simpul j

□_𝑗 = bias (sebagai pembatas)

3. Berdasarkan input dari langkah kedua, selanjutnya membangkitkan output untuk simpul menggunakan fungsi aktifitas sigmoid:

𝑂𝑢𝑡𝑝𝑢𝑡 = ¹

1+𝑒^{−𝑖𝑛𝑝𝑢𝑡} (2.6) 4. Hitung nilai error antara nilai yang diprediksi dengan nilai yang sesungguhnya

menggunakan rumus :

Errorj = outputj * (1-Outputj)*(Targetj-Outputj) (2.7) Keterangan :

Outputj = Output actual dari simpul j

Targetj = nilai target yang sudah diketahui pada data training

5. Setelah nilai error dihitung, selanjutnya dibalik ke layer sebelumnya (backpropagation). Untuk menghitung nilai error pada hidden layer, menggunakan rumus :

Errorj = outputj ∗ (1 − Outputj) ∗_∑^𝑛 _{𝑒𝑟𝑟𝑜𝑟𝑘 𝑤𝑗𝑘}

𝑘=1 (2.8)

Keterangan :

Outputj = Output actual dari simpul j Errork = Error dari simpul k

(15)

xv

Wjk = Bobot relasi dari simpul j ke simpul k pada layer berikutnya 6. Nilai error yang dihasilkan dari langkah sebelumnya digunakan untuk

memperbarui bobot relasi, dengan menggunakan rumus :

Wij = Wij + l * Errorj* Outputi (2.9)

Keterangan :

Wij = bobot relasi dari unit i pada layer sebelumnya ke unit j l = learning rate (konstantan, nilainya o sampai dengan 1) Errorj = Error pada output layer simpul j

Outputi = Output dari simpul i.

2.2.6 K-Nearest Neighbor

Menurut Han dan Kamber, Metodologi algoritma K-Nearest Neighbor (KNN) sangat intuitif. Ini mempertimbangkan k sampel berlabel terdekat x sampel untuk rahasia dan menetapkan x untuk kelas yang paling umum dari tetangga k (Liao, 2007).

K- nearest neighbor (kNN) adalah klasifikasi yang menyimpan semua data training dan melakukan klasifikasi dengan cara membandingkan antara atribut data baru yang paling cocok dengan atribut record yang terdapat pada data training.

kNN adalah kasus khusus dalam instance-based learning. Ini termasuk case-based reasoning, yang menangani data simbol. kNN juga merupakan contoh teknik lazy learning, yaitu teknik yang menunggu sampai pertanyaan (query) datang agar sama dengan data training (Wu, 2009).

K-Nearest neighbor (Kusrini, 2009) adalah pendekatan untuk mencari kasus dengan menghitung kedekatan antara kasus baru dengan kasus lama, yaitu berdasarkan pada pencocokan bobot dari sejumlah fitur yang ada. Rumus untuk menghitung kedekatan antara dua kasus tersebut adalah:

(2.10)

Keterangan :

T : Kasus baru

S : Kasus yang ada salam penympanan

n : Jumlah atribut dalam masing-masing kasus i : atribut individu antara 1 sampai n

f : Fungsi similarity atribut antara kasus T dan S w : Bobot yang diberikan pada atribut ke-i

Kedekatan biasanya berada pada nilai antara 0 s/d 1. Nilai 0 artinya kedua kasus mutlak tidak mirip, sebaliknya untuk nilai 1 kasus mirip dengan mutlak.

2.2.7. PSO (Partical Swam Optimization)

Partical Swam Optimization adalah teknik optimasi stokastik berbasis populasi yang dikembangkan oleh Dr. Eberhart dan Dr. Kennedy (Hu Shi &

Eberhart, 2004). PSO merupakan metode berbasis pupulasi seperti genetic

(16)

xvi

algorithm, tetapi konsep dasar PSO adalah kerjasama bukan persaingan (Alrijadjis

& Astrowulan)

PSO (Partical Swam Optimization) menggunakan teknik perhitungan evolusioner (Hu, Eberhart&Shi, 2003), yaitu:

1. PSO diinisilisassi dengan sekumpulan secara acak

2. PSO mencari solusi yang optimum dengan memperbaharui generasi 3. Perkembangan pupulasi berdasarkan pada generasi sebelumnya

Sebagai contoh, diketahui partikel ke-i : xi= (xi,1,xi,2, ….xi,d) dalam ruang dimensi-d. Partikel ke-I disimpan dan dinyatakan sebagai pbesti = (pbest i,1, pbest i,2, …., pbesti,d), kecepatan partikel ke-I denyatakan dengan : vi= (v i,1, v i,2, …., vi,d). Modifikasi kecepatan dan posisi tiap partikel dapat dihitung menggunakan kecepatan saat ini dan jarak pbesti,d dan gbesti,d seperti ditunjukkan dalam persamaan berikut:

vi,m = w. vi,m +c1*R*( pbesti,m -xi,m)+c2*r*( gbesti,m - xi,m) (2.11)

xid = xi,m + vi,m (2.12)

keterangan :

n : jumlah partikel dalam kelompok d : dimensi

vi,m : kecepatan partikel ke-I pada iterasi ke-i w : faktor bobot inersia

c1,c2 :konstanta akselerasi

R : bilangan random (acak) 0-1

xid : posisi saat ini dari partikel ke-I pada iterasi ke-i pbesti : posisi terbaik sebelumnya dari partikel ke-i

gbest : partikel terbaik diantara semua partikel dalam satu kelompok atau populasi

2.2.8 Evaluasi dan Validasi Metode Klasifikasi Data Mining

Untuk menguji model,pada penelitian ini,digunakn metode Cross Validation, Confusion Matrix, dan kurva ROC (Receiver Operating Characteristic).

1. Confusion Matrix

Metode ini hanya menggunakan table matriks seperti pada Tabel 2.1, jika data set hanya terdiri dari dua kelas, kelas yang satu dianggap sebagai positif dan yang lainnya negatif (Bramer,2007)

Tabel 2.1 Tabel Model Confision Matrix

(17)

xvii

True Positive adalah jumlah record positif yang diklasifikasikan sebagai positif, false positive adalah jumlah record negative yang diklasifikasikan sebagai positif, false negative adalah jumlah record positif yang diklasifikasikan sebagai negative, true negative adalah jumlah record negative yang diklasifikasikan sebagai negative, kemudian masukkan data uji. Setelah data uji dimasukkan ke dalam confusion matrix, hitung nilai-nilai yang telah dimasukkan tersebut untuk dihitung jumlah sensitivity (recall), Specifity, precision, dan accuracy. Sensitivity digunakan untuk membandingkan jumlah TP terhadap jumlah record yang positif sedangkan Specifity, precision adalah perbandingan jumlah TN terhadap jumlah record yang negative. Untuk menghitung digunakan persamaan dibawah ini ( Han, 2006):

Sensitifity = ^𝑇𝑃

𝑃

(2.13)

Specifity = ^𝑇𝑁

𝑁

(2.14) Precision = ^𝑇𝑃

𝑇𝑃+𝐹𝑃

(2.15) accuracy = Sensitivity ^P

(P+N) + Specifity ^N

(P+N) (2.16)

Keterangan :

TP = Jumlah true positives TN = Jumlah true negative P = Jumlah record positives N = Jumlah tupel negatives FP = Jumlah false positives 2. Kurva ROC

Kurva ROC menunjukkan akurasi dan membandingkan klasifikasi secara visual. ROC mengekspresikan confusion matrix. ROC adalah grafik dua dimensi dengan false positives sebagai garis horizontal dan true positive sebagai garis vertikal (Vercellis,2009). The area under curve (AUC) dihitung untuk mengukur perbedaan performansi metode yang digunakan. AUC digunakan dengan menggunakan rumus (Liao, 2007):

θ^r = ¹

mn ∑ⁿ_j=1∑^m_i=1ψ(xt^r, xj^r) (2.17) Dimana :

(𝑥, 𝑦) = {

1 𝑦 < 𝑥

1 0 𝑦>𝑥 2

𝑦 = 𝑥} (2.18)

Keterangan :

K = Jumlah algoritma klasifikasi yang dikomparasi X = Output positif

Y = Output negatif

(18)

xviii

BAB 3

METODE PENELITIAN 3.1 Desain Penelitian

Dalam metode penelitian ini, penulis menggunakan model proses CRISP- DM (Cross-Standard Industry Process for Data Mining) yang terdiri dari 6 tahap (Larose, 2005):

1. Business/Research Understanding Phase

2. Data Understanding Phase (Fase Pemahaman Data) 3. Data Preparation Phase (Fase Pengolahan Data) 4. Modeling Phase (Fase Pemodelan)

5. Evaluation Phase (Fase Evaluasi) 6. Deployment Phase (Fase Penyebaran) 3.2 Business/Research Understanding Phase

Berdasarkan data yang diterima dari hasil seleksi beasiswa, terlihat bahwa siswa yang mendapatkan beasiswa yang tidak semestinya atau yang tidak sesuai dengan kriteria sangat banyak dibanding dengan siswa yang sebenarnya layak memenuhi syarat beasiswa. Sampai saat ini belum diketahui pula algoritma yang paling akurat dalam melakukan penentuan kalayakan pemberian beasiswa ini.

Untuk itu maka dalam penelitian ini akan dilakukan komparasi data mining algoritma C4.5, naïve bayes, neural network, k-nearest neighbor, dan algoritma C4.5 berbasis PSO.

3.3 Data Understanding

Data yang didapat dari Baitul Maal adalah data calon beasiswa tahun 2010, jumlah data sebanyak 1535 data. Atribut atau variabel yang ada sebanyak 18 atribut.

Setelah dilakukan proses data preparation atribut atau variabel yang digunakan terdiri dari 12 atribut yang terdapat dalam penentu beasiswa. Dengan 11 atribut predictor dan 1 atribut tujuan.

3.4 Data Preparation

Data yang didapat dari penelitian ini sebanyak 1535 data baik yang mendapatkan beasiswa ataupun yang tidak mendapatkan beasiswa, yang terdiri dari 18 atribut.

3.5 Modeling

Pada tahap ini, dilakukan pemrosesan data training yang diklasifikasikan oleh model dan kemudian menghasilkan sejumlah aturan. Pada penelitian ini menggunakan lima algoritma, yaitu :

3.5.1 Algoritma C4.5

Tabel 3.2 adalah data training untuk menentukan siswa yang diterima beasiswa atau tidak. Langkah-langkah untuk membuat algoritma C.45, yaitu :

1. Siapkan data training

(19)

xix

2. Hitung nilai entropy.

Jika diketahui dalam data training, jumlah data 1120, siswa yang diterima beasiswa dalam kelas yes 571 record dan yang tidak diterima dalam kelas no 549 record. Berikut perhitungan entropynya :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑^𝑛_𝑖=1− 𝑝𝑖 log₂𝑝𝑖 (3.1)

3. Setelah itu, hitung nilai gain untuk setiap atribut, lalu pilih nilai gain yang tertinggi. Nilai gain tertinggi itulahyang akan dijadikan akar dari pohon.

Misalkan, untuk atribut usia, akan didapat gain : 𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ^|𝑆𝑖|

𝑆

𝑛𝑖=1 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) (3.2) Selanjutnya tentukan simpul berikutnya, yaitu simpul 1.1, dan dilakukan perhitungan entropy dan gain masing-masing atribut dari nilai raport. Jumlah kasus yang dihitung adalah nilai dari simpul nilai raport dan seterusnya sampai semua record dalam simpul, mendapatkan kelas yang sama.

3.5.2 Naïve Bayes

Data training yang digunakan untuk metode naïve bayes menggunakan data pada table 3.2. Dengan mencari prior probability untuk nilai yang diterima dan tidak diterima untuk semua jumlah data. Jika diketahui dalam data training, jumlah data 1120, siswa yang diterima beasiswa dalam kelas yes 571 record dan yang tidak diterima dalam kelas no 549 record. Berikut perhitungan prior probability :

P(yes,n) = P(yes|n)/n (3.3)

P(no,n) = P(no|n)/n (3.4)

Setelah itu mencari masing-masing setiap class atribut.Berikut perhitungan prior probability untuk usia 21-55 dalam katagori yes :

P(21-55,yes) = p(21-55|remark=21-55=yes)/P(remark=21-55 =yes) (3.5) Jika terdapat kasus baru dan dari kasus baru tersebut termasuk dalam kelas yang diterima atau tidak diterima, maka dilakukan perhitungan probabilitas posterior berdasarkan probabilitas prior yang telah dihitung sebelumnya (Tabel 3.3). Berikut data atau kasus baru yang akan dicari :

Tabel 3.3 Klasifikasi Kasus baru pada naïve bayes

Kasus Baru

Atribut Nilai

Usia 21-55

Pekerjaan Pekerja Tidak Tetap

Pendidikan SMA

Kls 10-12

Kepemilikan Rumah Tinggal menumpang

Pendapatan 1050000-2000000

Pengeluaran tidak tentu

Tanggungan Keluarga >3

Peringkat 1

Organisasi tdk ada

Nilai Raport >80

(20)

xx

Dari tabel 3.3 diatas, terdapat beberapa langkah untuk menghitung, yaitu:

P(X|Ci) = P(kasus|remark = yes) (3.6)

P(X|Ci) = P(kasus|remark = no) (3.7)

P(X|Ci)P(Ci)=P(kasus|remark = yes)P(remark = yes) (3.8) P(X|Ci)P(Ci)=P(kasus|remark = no)P(remark = no) (3.9)

3.5.3 Neural Network

1. Inisialisasikan bobot jaringan secara acak (baiasanya antara -0.1 sampai dengan 1.0)

2. Untuk setiap data pada data training, hitung input untuk simpul berdasarkan nilai input dan bobot jaringan saat itu. Dengan menggunakan rumus : 𝐼𝑛𝑝𝑢𝑡_𝑗 = ∑^𝑛_𝑖=1𝑂_{𝑖 𝑊}_𝑖𝑗+ □_𝑗 (3.10)

3. Berdasarkan input dari langkah kedua, selanjutnya membangkitkan output untuk simpul menggunakan fungsi aktifitas sigmoid:

𝑂𝑢𝑡𝑝𝑢𝑡 = ¹

1+𝑒^{−𝑖𝑛𝑝𝑢𝑡} (3.11)

4. Hitung nilai error antara nilai yang diprediksi dengan nilai yang sesungguhnya menggunakan rumus :

Errorj = outputj * (1-Outputj)*(Targetj-Outputj) (3.12) 5. Setelah nilai error dihitung, selanjutnya dibalik ke layer sebelumnya

(backpropagation). Untuk menghitung nilai error pada hidden layer, menggunakan rumus :

Errorj = outputj ∗ (1 − Outputj) ∗_∑𝑛 _{𝑒𝑟𝑟𝑜𝑟𝑘 𝑤𝑗𝑘}

𝑘=1 (3.13)

6. Nilai error yang dihasilkan dari langkah sebelumnya digunakan untuk memperbarui bobot relasi baru, dengan menggunakan rumus :

Wij = Wij + l * Errorj* Outputi (3.14)

3.5.4 K-Nearest Neighbor

Data training yang digunakan untuk metode k-nearest neighbor menggunakan data pada table 3.2. Dengan mendefinisikan bobot kedekatan untuk semua jumlah data, yaitu bobot antara satu atribut dengan atribut lain dan bobot antara nilai-nilai dalam atribut. Berikut bobot untuk tiap-tiap atribut seperti tampak pada tabel 3.4:

Tabel 3.4 Pendefinisian Bobot Atribut

Atribut Bobot

Usia 0.25

Pekerjaan 0.5

Pendidikan 0.25

Kelas 0.25

Kepemilikan rumah tinggal 0.5

Pendapatan 1

Pengeluaran 0.75

Tanggungan keluarga 0.75

Peringkat 1

(21)

xxi

Organisasi 0.75

Nilai Raport 1

Jika terdapat kasus baru dan dari kasus baru tersebut termasuk dalam kelas yang diterima atau tidak diterima, maka dilakukan perhitungan kedekatan kasus baru dengan kasus sebelumnya. Berikut data kasus sebelumnya pada tabel 3.16 dan kasus baru yang akan dicari pada tabel 3.17 :

Tabel 3.16 Tabel kasus sebelumnya

Tabel 3.17 Tabel kasus baru

3.5.5 Algoritma C.45 Berbasis PSO (Particle Swarm Optimization)

Pada algoritma C.45 berbasis PSO (Particle Swarm Optimization) menggunakan langkah-langkah yang sama seperti menggunakan algoritma C.45, yaitu:

1. Hitung nilai entropy.

Jika diketahui dalam data training, jumlah data 1120, siswa yang diterima beasiswa dalam kelas yes 571 record dan yang tidak diterima dalam kelas no 549 record. Berikut perhitungan entropynya :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) = ∑^𝑛_𝑖=1− 𝑝𝑖 log₂𝑝𝑖 (3.19)

2. Setelah itu, hitung nilai gain untuk setiap atribut, lalu pilih nilai gain yang tertinggi. Nilai gain tertinggi itulahyang akan dijadikan akar dari pohon.

Berikut perhitungan gain:

𝐺𝑎𝑖𝑛 (𝑆, 𝐴) = 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆) − ∑ ^|𝑆𝑖|

𝑆

𝑛𝑖=1 ∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) (3.20) Selanjutnya tentukan simpul berikutnya, yaitu simpul 1.1, dan dilakukan perhitungan entropy dan gain masing-masing atribut. Jumlah kasus yang dihitung adalah nilai dari simpul gain pertama dan seterusnya sampai semua record dalam simpul, mendapatkan kelas yang sama.

3.6 Evaluation

(22)

xxii

Pada tahap ini adalah tahap dilakukan pengujian menggunakan data training berjumlah 1120 dan data testing berjumlah 272 data dengan melihat hasil akurasi pada proses klasifikasi menggunakan metode algoritma C4.5, naïve bayes, neural network, k-nearest neighbor, algoritma C4.5 berbasis PSO. Serta evaluasi dengan menggunakan metode confusion matrix, dan kurva ROC.

3.7 Deployment

Setelah pembentukan model, dilakukan analisa, dan pengukuran, selanjutnya pada tahap ini diterapkan model yang paling akurat untuk penentuan kelayakan pemberian beasiswa pada baitul maal.

3.8 Jadwal Penelitian

Berikut gantt chart kegiatan tahap penelitian yang dilakukan terdapat pada gambar 3.1 dibawah ini:

Gambar 3.1 Gantt chart penelitian

(23)

xxiii

BAB 4

HASIL ANALISA DAN PEMBAHASAN 4.1 Pengukuran Penelitian

4.1.1 Hasil Penelitian

Penelitian ini bertujuan untuk menentukan akurasi kelayakan pemberian beasiswa yang dibandingkan dengan menggunakan metode algoritma C4.5, naïve bayes, neural network, k-nearest neighbor, dan algoritma C4.5 berbasis PSO (Particle Swarm Optimization). Setelah itu membandingkan nilai akurasi kelima metode tersebut, dalam menentukan hasil penelitian ini menggunakan data training berjumlah 1120 data dan data testing berjumlah 271.

1. Algoritma C4.5

Gambar 4.2 Pohon Keputusan Menggunakan Algoritma C4.5 Dengan Data Testing

Pada gambar 4.2, yaitu pohon keputusan yang dihasilkan dari perhitungan entropy dan gain untuk keseluruhan atribut. Berdasarkan hasil perhitungan entropy dan gain pada Tabel 4.1, nilai raport mempunyai nilai gain tertinggi dan menghasilkan empat simpul sesuai dengan atribut yang dimilikinya, yaitu : <60, 60-70, 71-80, >80, dan tidak ada.

Kemudian hitung entropy dan gain masing-masing atribut dari nilai raport.

Berdasarkan perhitungan didapat nilai gain tertinggi yaitu tanggungan keluarga, sehingga peringkat menjadi simpul pada level berikutnya. Pada gambar 4.2 terlihat atribut tanggungan keluarga yang akan membentuk cabang kedua, yaitu : =1, =2-3,

=>3. Tanggungan keluarga pada simpul =1 akan membentuk cabang selanjutnya yaitu, pendapatan.

Berdasarkan pohon keputusan pada gambar 4.2 diatas, dapat membentuk aturan-aturan, yaitu sebagai berikut:

1. R1: If Nilai Raport tidak ada THEN no

2. R2: If Nilai Raport ≥80 AND tanggungan keluarga ≥3 THEN yes 3. R3: If Nilai Raport ≥80 AND tanggungan keluarga =2-3 THEN yes

4. R4: If Nilai Raport ≥80 AND tanggungan keluarga =1 AND pendapatan 500000-1000000 THEN no

(24)

xxiv

5. R5: If Nilai Raport ≥80 AND tanggungan keluarga =1 AND pendapatan 10500000-2000000 THEN yes

6. R6: If Nilai Raport ≤ 60 THEN no 7. R7: If Nilai Raport = 71-80 THEN yes 8. R8: If Nilai Raport = 60-70 THEN no 2. Naïve Bayes

Data training yang digunakan untuk metode naïve bayes menggunakan data pada table 3.2. Dengan mencari prior probability untuk nilai yang diterima dan tidak diterima untuk semua jumlah data. Jika diketahui dalam data training, jumlah data 1120, siswa yang diterima beasiswa dalam kelas yes 571 record dan yang tidak diterima dalam kelas no 549 record. Berikut hasil perhitungan prior probability dengan menggunakan rumus (3.3) dan (3.4) :

P(yes,n) = 571/1120 = 0.5098 P(no,n) = 549/1120 = 0.490

Setelah itu mencari masing-masing setiap class atribut. Berikut hasil perhitungan prior probability untuk usia 21-55 dalam katagori yes menggunakan rumus (3.5):

P(21-55,yes) = 523/571 = 0.9159

Berikut hasil perhitungan priori probability untuk masing-masing atribut, terdapat pada tabel 4.3:

Tabel 4.3 Hasil nilai prior probability dengan data training

Atribut kasus yes no p(x|C1)

Yes no

total 1120 571 549 0.509821429 0.490178571

21-55 1029 523 506 0.915936953 0.921675774

>55 91 48 43 0.084063047 0.078324226

Pekerjaan 1120 571 549

Wiraswasta 495 279 216 0.488616462 0.393442623 Pekerja tetap 137 57 80 0.099824869 0.14571949 pekerja tidak

tetap 417 206 211 0.360770578 0.384335155 tidak bekerja 71 29 42 0.050788091 0.076502732

Pendidikan 1120 571 549

SD 451 231 220 0.404553415 0.400728597

SMP 371 181 190 0.316987741 0.346083789 SMA 298 159 139 0.278458844 0.253187614

Kelas 1120 571 549

1-6 452 232 220 0.406304729 0.400728597 7-9 370 180 190 0.315236427 0.346083789 10-12 298 159 139 0.278458844 0.253187614 Kepemilikan rumah

tinggal 1120 571 549

Rumah sewa 161 84 77 0.147110333 0.140255009 Rumah sendiri 675 354 321 0.619964974 0.584699454

(25)

xxv

Menumpang 284 133 151 0.232924694 0.275045537

Pendapatan 1120 571 549

<500000 217 127 90 0.222416813 0.163934426 500000-

1000000 709 359 350 0.628721541 0.637522769 1050000-

2000000 167 73 94 0.127845884 0.171220401 >2000000 6 3 3 0.00525394 0.005464481 Tidak ada 21 9 12 0.015761821 0.021857923

Pengeluaran 1120 571 549

<500000 194 97 97 0.169877408 0.176684882 500000-

1000000 503 270 233 0.472854641 0.424408015 1050000-

2000000 326 161 165 0.281961471 0.300546448 >2000000 26 13 13 0.022767075 0.023679417 Tidak tentu 71 30 41 0.052539405 0.074681239 Tanggungan keluarga 1120 571 549

1 145 74 71 0.129597198 0.129326047

2-3 679 349 330 0.611208406 0.601092896

>3 296 148 148 0.259194396 0.269581056

Peringkat 1120 571 549

1 116 82 34 0.143607706 0.061930783

2-3 131 81 50 0.141856392 0.091074681

4-10 129 76 53 0.133099825 0.096539162

tdk ada 744 332 412 0.581436077 0.750455373

Organisasi 1120 571 549

Aktif Organisasi 572 246 326 0.430823117 0.593806922 tdk ada 548 325 223 0.569176883 0.406193078

Nilai Raport 1120 571 549

<60 10 0 10 0 0.018214936

60-70s 315 85 230 0.148861646 0.418943534 71-80 576 365 211 0.639229422 0.384335155

>80 155 118 37 0.206654991 0.067395264 tidak ada 64 3 61 0.00525394 0.111111111

1120 571 549

Jika terdapat kasus baru dan dari kasus baru (terdapat pada tabel 3.3) tersebut termasuk dalam kelas yang diterima atau tidak diterima, maka dilakukan perhitungan probabilitas posterior berdasarkan probabilitas prior yang telah dihitung sebelumnya. Berikut probabilitas posterior pada tabel 4.4 dibawah ini:

Tabel 4.4 Probabilitas Posterior data training

(26)

xxvi

Kasus Baru p(x|C1)

Atribut Nilai yes no

Usia 21-55 0.915936953 0.92167577

Pekerjaan Pekerja Tidak Tetap 0.360770578 0.38433515

Pendidikan SMA 0.278458844 0.25318761

Kls 10-12 0.278458844 0.25318761

Kepemilikan Rumah Tinggal menumpang 0.232924694 0.27504554

Pendapatan 1050000-2000000 0.127845884 0.1712204

Pengeluaran tidak tentu 0.052539405 0.07468124

Tanggungan Keluarga >3 0.259194396 0.26958106

Peringkat 1 0.143607706 0.06193078

Organisasi tdk ada 0.569176883 0.40619308

Nilai Raport >80 0.206654991 0.06739526

dikalikan 1.7551E-07 3.6501E-08

Terdapat beberapa langkah untuk menghitung, yaitu:

a. Diketahui P(X|Ci) = P(kasus|remark = yes) = 1.7551E-07 b. Diketahui P(X|Ci) = P(kasus|remark = no) = 3.6501E-08

c. Lalu hitung P(X|Ci)P(Ci) katagori yes dengan menggunakan rumus (3.8) P(X|Ci)P(Ci) = 1.7551E-07 * 0.509821429

= 8.9479E-08

d. Lalu hitung P(X|Ci)P(Ci) katagori no dengan menggunakan rumus (3.9) P(X|Ci)P(Ci) = 3.6501E-08 * 0.490178571

= 1.7892E-08

Dari hasil perhitungan diatas, diperoleh nilai P(X|Ci) dan P(X|Ci) P(Ci) lebih besar pada remark yes, sehingga dapat disimpulkan bahwa data baru termasuk dalam klasifikasi yes.

Selanjutnya akan dilakukan perhitungan menggunakan data testing untuk metode naïve bayes. Dengan mencari prior probability untuk nilai yang diterima dan tidak diterima untuk semua jumlah data. Jika diketahui dalam data testing, jumlah data 271, siswa yang diterima beasiswa dalam kelas yes 96 record dan yang tidak diterima dalam kelas no 175 record. Berikut hasil perhitungan prior probability dengan menggunakan rumus (3.3) dan (3.4) :

P(yes,n) = 96/271 = 0.3542 P(no,n) = 175/271 = 0.6457

Setelah itu mencari masing-masing setiap class atribut. Berikut hasil perhitungan prior probability untuk usia 21-55 dalam katagori yes menggunakan rumus (3.5):

P(21-55,yes) = 93/96= 0.96875

Berikut hasil perhitungan priori probability untuk masing-masing atribut, terdapat pada tabel 4.5:

Tabel 4.5 Hasil nilai prior probability data testing

simpul nilai kasus yes No

p(x|C1)

yes no

(27)

xxvii

Usia 271 96 175 0.354244 0.645756

21-55 267 93 174 0.96875 0.994286

>55 4 3 1 0.03125 0.005714

Pekerjaan 271 96 175

Wiraswasta 84 39 45 0.40625 0.257143

Pekerja tetap 65 20 45 0.208333 0.257143

pekerja tidak

tetap 104 35 69 0.364583 0.394286

tidak bekerja 18 2 16 0.020833 0.091429

Pendidikan 271 96 175

SD 124 39 85 0.40625 0.485714

SMP 95 30 65 0.3125 0.371429

SMA 52 27 25 0.28125 0.142857

Kelas 271 96 175

1-6 124 39 85 0.40625 0.485714

7-9 95 30 65 0.3125 0.371429

10-12 52 27 25 0.28125 0.142857

Kepemilikan rumah

tinggal 271 96 175

Rumah sewa 68 26 42 0.270833 0.24

Rumah sendiri 116 50 66 0.520833 0.377143

Menumpang 87 20 67 0.208333 0.382857

Pendapatan 271 96 175

<500000 24 12 12 0.125 0.068571

500000-1000000 198 62 136 0.645833 0.777143

1050000-

2000000 41 19 22 0.197917 0.125714

>2000000 2 1 1 0.010417 0.005714

Tidak ada 6 2 4 0.020833 0.022857

Pengeluaran 271 96 175

<500000 38 9 29 0.09375 0.165714

500000-1000000 113 42 71 0.4375 0.405714

1050000-2000000 88 35 53 0.364583 0.302857

>2000000 7 4 3 0.041667 0.017143

Tidak tentu 25 6 19 0.0625 0.108571

Tanggungan

keluarga 271 96 175

1 47 15 32 0.15625 0.182857

2-3 154 56 98 0.583333 0.56

>3 70 25 45 0.260417 0.257143

Peringkat 271 96 175

1 19 15 4 0.15625 0.022857

(28)

xxviii

2-3 19 14 5 0.145833 0.028571

4-10 21 13 8 0.135417 0.045714

tdk ada 212 54 158 0.5625 0.902857

Organisasi 271 96 175

Aktif Organisasi 190 50 140 0.520833 0.8

tdk ada 81 46 35 0.479167 0.2

Nilai Raport 271 96 175

<60 4 0 4 0 0.022857

60-70 70 3 67 0.03125 0.382857

71-80 108 62 46 0.645833 0.262857

>80 35 31 4 0.322917 0.022857

tidak ada 54 0 54 0 0.308571

271 96 175

Jika terdapat kasus baru dan dari kasus baru (terdapat pada tabel 4.6) tersebut termasuk dalam kelas yang diterima atau tidak diterima, maka dilakukan perhitungan probabilitas posterior berdasarkan probabilitas prior yang telah dihitung sebelumnya. Berikut probabilitas posterior pada tabel 4.6 dibawah ini:

Tabel 4.6 Probabilitas Posterior data testing

Kasus Baru p(x|C1)

Atribut Nilai yes no

Usia 21-55 0.96875 0.9942857

Pekerjaan Pekerja Tidak Tetap 0.3645833 0.3942857

Pendidikan SMA 0.28125 0.1428571

Kls 10-12 0.28125 0.1428571

Kepemilikan Rumah

Tinggal Menumpang 0.2083333 0.3828571

Pendapatan 1050000-2000000 0.1979167 0.1257143

Pengeluaran tidak tentu 0.0625 0.1085714

Tanggungan Keluarga >3 0.2604167 0.2571429

Peringkat 1 0.15625 0.0228571

Organisasi tdk ada 0.5208333 0.8

Nilai Raport >80 0.3229167 0.0228571

dikalikan 4.9271E-07 4.4934E-09

Terdapat beberapa langkah untuk menghitung, yaitu:

e. Diketahui P(X|Ci) = P(kasus|remark = yes) = 4.9271E-07 f. Diketahui P(X|Ci) = P(kasus|remark = no) = 4.4934E-09

g. Lalu hitung P(X|Ci)P(Ci) katagori yes dengan menggunakan rumus (3.8) P(X|Ci)P(Ci) = 4.9271E-07 * 0.354243542

= 1.7454E-07

h. Lalu hitung P(X|Ci)P(Ci) katagori no dengan menggunakan rumus (3.9) P(X|Ci)P(Ci) = 4.4934E-09 * 0.645756458

(29)

xxix

= 2.90162E-09

Dari hasil perhitungan diatas, diperoleh nilai P(X|Ci) dan P(X|Ci) P(Ci) lebih besar pada remark yes, sehingga dapat disimpulkan bahwa data baru termasuk dalam klasifikasi yes.

3. Neural Network

Berikut hasil perhitungan akhir neural network untuk simpul hidden layer pada tabel 4.7:

Tabel 4.7 Nilai bobot akhir pada hidden layer

no SIMPUL

Hidden layer

1 2 3 4 5 6 7 8

1 Usia 0.234 -0.002 0.374 -0.032 0.240 -0.060 0.333 -0.240

2 Pekerjaan 0.105 0.345 0.005 -0.001 -0.237 -0.085 -0.666 0.112

3 Pendidikan 0.035 0.115 -0.427 0.056 -0.117 0.107 0.202 -0.111

4 Kelas -0.456 -0.015 0.654 0.073 0.569 0.009 -0.550 -0.001

5

Kepemilikan rumah

tinggal 0.200 -0.672 0.046 0.129 0.121 0.084 0.540 0.013

6 Pendapatan -0.129 0.789 0.578 -0.326 -0.650 -0.158 0.178 0.040

7 Pengeluaran -0.335 0.635 -0.452 0.125 -0.401 -0.099 0.002 -0.050

8 Tanggungan keluarga -0.004 0.009 -0.002 0.540 -0.200 -0.348 0.171 0.050

9 Peringkat 0.008 -0.272 0.653 0.040 0.007 0.023 -0.320 -0.034

10 Organisasi 0.285 0.472 0.219 0.275 0.862 0.345 -0.312 0.222

11 Nilai Raport 0.756 0.159 0.216 -0.435 0.126 0.452 0.123 -0.133

12 Threshold 0.389 0.278 0.005 0.618 -0.371 0.120 0.319 -0.231

Keterangan dari tabel diatas, yaitu: kolom simpul menerangkan atribut yang dinyatakan kolom simpul input layer. Sedangkan kolom satu sampai delapan menerangkan jumlah simpul pada hidden layer. Untuk nilai akhir fungsi aktifasi output layer dapat dilihat pada tabel 4.8 dibawah ini:

Tabel 4.8 Nilai bobot akhir untuk output layer

NO CLASS

Output/sigmoid

1 2 3 4 5 6 7 8 Threshold

1 yes 6.246 14.87 3.7 5.74 1.87 4.785 2.873 4.864 1.097 2 no -6.251 -14.785 -3.74 -5.738 -1.878 -4.786 -2.876 -4.669 -1.093

Keterangan dari tabel diatas, yaitu: class menerangkan yes dan no. Nilai yang terdapat pada kolom satu sampai dengan delapan adalah nilai bias yang simpul bias pada hidden layer yang menghubungkan pada output layer.

4. K-Nearest Neighbor

Jika terdapat kasus baru dan dari kasus baru tersebut termasuk dalam kelas yang diterima atau tidak diterima, maka dilakukan perhitungan kedekatan kasus baru dengan kasus sebelumnya. Berikut data kasus sebelumnya pada tabel 4.9 dan kasus baru yang akan dicari pada tabel 4.10 :

(30)

xxx

Program Pascasarjana Magister Ilmu Komputer STMIK Nusa Mandiri Tabel 4.9 Tabel kasus sebelumnya

Tabel 4.10 Tabel kasus baru

Untuk memprediksi apakah siswa tersebut akan diterima atau tidak beasiswanya dapat dilakukan langkah-langkah sebagai berikut:

1. Menghitung kedekatan kasus baru dengan kasus nomor 1

a. Kedekatan nilai atribut usia (21-55 dengan 21-55), dengan melihat tabel (3.5) : 1

b. Bobot atribut usi, dengan melihat tabel (3.4) a: 0.25

c. Kedekatan nilai atribut pekerjaan (pekerja tidak tetap dengan pekerja tetap) , dengan melihat tabel (3.6) : 0.75

d. Bobot atribut pekerjaan, dengan melihat tabel (3.4):0.5

e. Kedekatan nilai atribut pendidikan (SMA dengan SMP) , dengan melihat tabel (3.7) : 0.4

f. Bobot atribut pendidikan, dengan melihat tabel (3.4):0.25

g. Kedekatan nilai atribut kelas (10-12 dengan 7-9) , dengan melihat tabel (3.8):0.2

h. Bobot atribut kelas, dengan melihat tabel (3.4):0.25

i. Kedekatan nilai atribut kepemilikan rumah tinggal (menumpang dengan rumah sendiri) , dengan melihat tabel (3.9): 0.6

j. Bobot atribut kepemilikan rumah tinggal, dengan melihat tabel (3.4):0.5 k. Kedekatan nilai atribut pendapatan (1050000-20000000 dengan

1050000-20000000) , dengan melihat tabel (3.10):1 l. Bobot atribut pendapatan, dengan melihat tabel (3.4):1

m. Kedekatan nilai atribut pengeluaran (tdk tentu dengan 1050000- 20000000) , dengan melihat tabel (3.11):0.75

n. Bobot atribut pengeluaran, dengan melihat tabel (3.4):0.75

o. Kedekatan nilai atribut tanggungan keluarga (>3 dengan 2-3) , dengan melihat tabel (3.12):0.75

p. Bobot atribut tanggungan keluarga, dengan melihat tabel (3.4):0.75 q. Kedekatan nilai atribut peringkat (1 dengan tidak ada) , dengan melihat

tabel (3.13):0.8

r. Bobot atribut peringkat, dengan melihat tabel (3.4):1

s. Kedekatan nilai atribut organisasi (tidak ada dengan aktif organisasi) , dengan melihat tabel (3.14):0.5

t. Bobot atribut organisasi, dengan melihat tabel (3.4): 0.75

(31)

xxxi

u. Kedekatan nilai atribut nilai raport (>80dengan71-80) , dengan melihat tabel (3.15):0.9

v. Bobot atribut nilai raport, dengan melihat tabel (3.4):1 Setelah itu hitung jaraknya :

Jarak = (a*b)+(c*d)+(e*f)+(g*h)+(i*j)+(k*l)+(m*n)+(o*p)+(q*r)+(s*t)+(u*v) b+d+f+h+j+k+l+n+p+r+t+v

= 5.275/7 =0.753

Dengan menentukan kedekatan seperti langkah 1, lalu hitung jaraknya, seperti dibawah ini:

= 6.0625/7 = 0.8660

5. Memilih kasus dengan kedekatan terdekat

Dari langkah 1 sampai dengan langkah ke 4, nilai tertinggi terdapat pada langkah ke 2. Berarti kasus yang terdekat dengan kasus baru adalah pada kasus ke 2.

6. Menggunakan klasifikasi dari kasus dengan kedekatan terdekat

Berdasarkan langkah ke 5, didapat kesimpulan bahwa siswa dengan kriteria baru tersebut akan terima beasiswa atau termasuk dalam katagori yes 5. Algoritma C.45 Berbasis PSO (Particle Swarm Optimization)

(32)

xxxii

(33)

xxxiii

1. R1: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga 2-3 AND Pekerjaan Wiraswasta THEN yes

2. R2: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga 2-3 AND Pekerjaan tidak tetap THEN yes

3. R3: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga 2-3 AND Pekerjaan Tetap THEN no

4. R4: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga 1 THEN no

5. R5: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga >3 AND Pendidikan SMP THEN no

6. R6: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga >3 AND Pendidikan SMA THEN yes

7. R7: If Nilai Raport tidak ada AND Organisasi tidak ada AND Tanggungan Keluarga >3 AND Pendidikan SD THEN no

8. R8: If Nilai Raport tidak ada AND Organisasi Aktif Organisasi THEN no 9. R9: If Nilai Raport 71-80 THEN yes

10. R10: If Nilai Raport 60-70 THEN no 11. R11: If Nilai Raport >80 THEN yes 12. R12: If Nilai Raport <60 THEN yes

Untuk gambaran pohon keputusan dengan data testing dari tabel 4.10 dapat dilihat pada gambar 4.5 sebagai berikut:

Gambar 4.5 Pohon keputusan menggunakan algoritma C4.5 dengan data testimg

1. R1: If Nilai Raport tidak ada THEN no 2. R2: If Nilai Raport >80 THEN yes 3. R3: If Nilai Raport <60 THEN yes 4. R4: If Nilai Raport 71-80 THEN yes 5. R5: If Nilai Raport 60-70 THEN no

4.1.2 Evaluasi dan Validasi Model

Hasil dari pengujian model yang telah dilakukan, dilakukan pengujian tingkat akurasi dengan menggunakan confussion matrix dan kurva ROC/AUC (Area Under Cover).

1. Confussion Matrix

(34)

xxxiv

Dari tabel confussion matrix diatas, selanjutnya dilakukan perhitungan nilai accuracy, precission, dan recall dari penghilangan beberapa atribut. Berikut perbandingan nilai accuracy, disajikan pada tabel 4.93 sebagai berikut:

Tabel 4.93 Nilai accuracy

Berikut perbandingan nilai Precission, disajikan pada tabel 4.94 sebagai berikut:

Tabel 4.94 Nilai Precission

Berikut perbandingan nilai Recall, disajikan pada tabel 4.95 sebagai berikut:

4.95 Nilai Recall

Berikut hasil nilai ROC pada tabel 4.96, sebagai berikut:

Tabel 4.96 Tabel nilai ROC