Landasan Teori - LANDASAN KEPUSTAKAAN - Implementasi Data Mining untuk Prediksi MahasiswaPeng

BAB 2 LANDASAN KEPUSTAKAAN

2.3 Landasan Teori

2.3.1 Data Mining

Data Mining adalah proses menemukan pola yang menarik dan pengetahuan

dari sejumlah besar data. Sumber data dapat mencakup database, gudang data (data warehouse), web, repositori informasi lainnya, atau data yang dialirkan ke dalam sistem dinamis. (Han, 2012).

Banyak orang mengartikan data mining sebagai sinonim untuk sebuah istilah populer, yaitu Knowledge Discovery from Data (KDD), sementara yang lainnya melihat data mining sebagai langkah penting untuk mendapatkan pengetahuan. Sebagai sebuah rangkaian proses, proses pencarian pengetahuan secara iteratif pada data mining dapat dibagi dalam beberapa tahap, sebagaimana diilustrasikan pada Gambar 2.1. Tahap-tahap tersebut bersifat interaktif, pengguna terlibat langsung atau dengan perantaraan knowledge base.

Adapun tahap-tahap data mining adalah sebagai berikut : 1. Pembersihan data (data cleaning)

Pembersihan data merupakan proses menghilangkan noise dari data dan data yang tidak konsisten atau data tidak relevan.

2. Integrasi data (data integration)

Integrasi data merupakan proses penggabungan data dari berbagai database ke dalam sebuah database baru.

3. Seleksi data (data selection)

Seleksi data dibutuhkan karena data yang terdapat pada database seringkali tidak semuanya dapat dipakai, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database.

4. Transformasi data (data transformation)

Proses dimana data diubah atau digabung ke dalam format yang sesuai sebelum diproses dalam data mining.

5. Proses mining

Proses mining merupakan proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data yang ada. 6. Evaluasi pola (pattern evaluation)

Evaluasi pola digunakan untuk mengidentifikasi pola-pola menarik ke dalam

knowledge based yang ditemukan.

7. Presentasi pengatahuan (knowledge presentation)

Presentasi pengetahuan merupakan visualisasi dan penyajian pengetahuan mengenai metode yang digunakan untuk memperoleh pengetahuan dari pengguna.

Gambar 2.1 Tahap-tahap data mining

(Sumber : Han. 2012)

Ada beberapa teknik yang dimiliki data mining berdasarkan tugas yang bisa dilakukan, yaitu :

1. Deskripsi

Biasanya akan mencoba untuk menemukan cara dalam mendeskripsikan pola dan trend yang tersembunyi dalam data.

2. Estimasi

Estimasi mirip dengan klasifikasi, kecuali variabel tujuan pada estimasi yang lebih kearah numerik daripada kategori.

3. Prediksi

Prediksi memiliki kemiripan dengan estimasi dan klasifikasi. Hanya saja, prediksi hasilnya menunjukkan sesuatu yang belum terjadi (mungkin terjadi di masa depan).

4. Klasifikasi

Dalam klasifikasi variabel, tujuan bersifat kategorik. Misalnya, kita akan mengklasifikasikan pendapatan dalam tiga kelas, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.

5. Clustering

Clustering merupakan suatu metode pengelompokan data yang dimulai dengan

mengelompokkan dua atau lebih objek yang memiliki kesamaan diantaranya, biasanya diukur dengan ukuran kedekatan antara satu objek dengan objek lainnya. 6. Asosiasi

Dalam asosiasi perlu dibuat dependency rules (aturan ketergantungan) yang akan memprediksikan kemunculan suatu item berdasarkan kemunculan item yang lain.

2.3.2 Naive Bayes Classifier (NBC)

Naive Bayes Classifier (NBC) termasuk kedalam Classifier Statistic yaitu

menyelesaikan prediksi probabilitas dan memprediksi peluang keanggotaan suatu kelas. Naive Bayes memiliki performa tinggi dalam akurasi dan kecepatan, dan merupakan generative learning algorithm, yaitu algoritme yang menghitung probabilitas pada suatu kelas sampai menemukan sebuah cluster. Naive Bayes menggunakan rumus yang didasarkan pada teorema Bayes.

Teorema keputusan bayes merupakan pendekatan statistik yang fundamental dalam pengenalan pola (pattern recognition). Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. (Ridwan, 2011).

Naive Bayes Classifier (NBC) dapat digunakan untuk memproses data baik data

diskrit atau data kontinu. Naive Bayes merupakan asumsi independen bersyarat, termasuk dalam melakukan perhitungan peluang dalam setiap kombinasi X, dan hanya perlu mengestimasikan peluang bersyarat untuk setiap X yang diberikan Y. Untuk mengklasifikasi data uji, Naive Bayes Classifier (NBC) menggunakan nilai posterior untuk setiap kelas Y :

𝑃(𝑌|𝑋) =^𝑃(𝑌)^∏𝑖=1^𝑑 𝑃(𝑋_𝑖 | 𝑌)

Dimana :

- P (Y|X) adalah probabilitas data dengan vektor X pada kelas Y. - P (Y) adalah nilai probabilitas awal kelas Y.

- P (Xi | Y) adalah probabilitas independen kelas Y dari semua fitur dalam vektor X. Naive Bayes mudah digunakan untuk menghitung fitur dengan data kategoris seperti pada kasus fitur “jenis kelamin” dengan nilai {pria, wanita} namun untuk fitur numerik terdapat pendekatan yang dilakukan sebelum dimasukkan kedalam

Naive Bayes. (Wasiati, 2014). Caranya adalah sebagai berikut :

1. Melakukan diskretisasi pada setiap fitur untuk data kontinu dan mengganti nilai pada fitur tersebut dengan nilai interval diskrit. Pendekatan ini dilakukan dengan melakukan transformasi fitur untuk data kontinu ke dalam bentuk fitur dengan nilai ordinal.

2. Melakukan asumsi dengan bentuk tertentu dari distribusi probabilitas untuk fitur kontinu dan memperkirakan parameter distribusi dengan menggunakan data latih.

1. Perhitungan Probabilitas Pada Data Kontinu

Distribusi Gaussian sering digunakan untuk merepresentasikan peluang bersyarat untuk atribut dengan data kontinu. Pada Gaussian, distribusi dikarakterisasi dengan menggunakan nilai rerata/mean (µ) dan varian (𝜎²) atau standar deviasi (𝜎).

Persamaan yang digunakan untuk menghitung nilai rerata/mean (µ) : 𝜇 = ^∑^𝑛𝑖=0^𝑛𝑖

𝑛 (2.2)

(Sumber : Saleh, 2015) Keterangan :

 𝜇 = rata-rata

 𝑛 = jumlah datapada kelas dan fitur tertentu

 𝑛_𝑖 = nilai data pada data ke-i

Persamaan yang digunakan untuk menghitung varian (σ2) atau standar deviasi (σ) adalah sebagai berikut :

𝜎 = √^∑𝑛 ^(𝑛𝑖−𝜇)2 𝑖=0

𝑛−1 (2.3)

(Sumber : Saleh, 2015) Keterangan :

 n = jumlah data pada kelas dan fitur tertentu.

 𝜇 = rata-rata pada kelas dan fitur tertentu.

Untuk setiap kelas yi , peluang kelas bersyarat untuk atribut Xi dihitung dengan persamaan berikut : P(Xi = xi | Yi = yi) = ¹ √2 𝜋 𝜎𝑖𝑗

𝑒𝑥𝑝

(𝑥𝑖− µ𝑖𝑗)² 2 𝜎𝑖𝑗²

(2.4) (Sumber : Saleh, 2015) Dimana :

- Parameter µ_𝑖𝑗 diestimasi berdasarkan sampel mean xi pada seluruh data uji yang memiliki kelas yj.

- Parameter 𝜎_𝑖𝑗² dapat diestimasi menggunakan sampel varian (s2) pada seluruh data uji dengan kelas yj.

2. Perhitungan Probabilitas Pada Data Diskrit

Sedangkan untuk melakukan perhitungan Naive Bayes dengan data diskrit, maka nilai posterior dihitung menggunakan persamaan teorema bayes sebagaimana ditunjukkan dalam persamaan 2.3 untuk mendapatkan nilai posteriornya, sebagai berikut :

P (H|X) = ^{𝑃 (𝑋|𝐻) 𝑃(𝐻)}_𝑃(𝑋) (2.5) (Sumber : Saleh, 2015)

Dimana :

- X merupakan data dengan kelas yang belum diketahui

- C merupakan hipotesis data yang merupakan suatu kelas spesifik

- P (C|X) merupakan probabilitas hipotesis dengan syarat X (posterior

probability)

- P (C) merupakan probabilitas hipotesis (prior probability)

- P (X|C) merupakan probabilitas berdasarkan kondisi pada hipotesis

2.3.3 Laplacian Correction / Laplace Estimator

Untuk menyiasati supaya probabilitas pada perhitungan dengan Naive

Bayes Classifier (NBC) tidak menghasilkan nilai 0 dikarenakan tidak adanya data

untuk suatu kategori tertentu dalam suatu kelas, maka dapat digunakan teknik estimasi yang disebut dengan Laplacian Correction atau Laplace Estimator. (Han, 2012). Dalam teknik ini dilakukan penambahan nilai 1 pada data untuk setiap kategori ketika terdapat kategori dengan nilai probabilitas 0 (nol) sehingga untuk sebanyak k kategori dimana j = 1,2,...k dan N = ∑_𝑗=1^𝑘 𝑛_𝑗 jika masing-masing kategori dalam kelasnya bernilai ni , sehingga dapat ditunjukkan dalam persamaan 2.6 berikut :

𝑃 (𝑋 = 𝑖) = ^𝑛𝑖+1

𝑁+𝑏𝑎𝑛𝑦𝑎𝑘 𝑘𝑎𝑡𝑒𝑔𝑜𝑟𝑖 (2.6)

Dimana :

- ni menunjukkan jumlah data pada ketegori ke-i

Sebagai contoh, diasumsikan terdapat kelas buy = yes pada suatu data uji dan memiliki 1000 sampel. Terdapat sebanyak 0 (nol) sampel dengan income = low, 990 sampel dengan income = medium, dan 10 sampel dengan income = high. Sehingga apabila dihitung probabilitasnya tanpa Laplacian Correction, maka nilainya berturut-turut adalah 0, 0.990 (dari 990/1000), 0.0010 (dari 10/1000). Dengan menggunakan Laplacian Correction dari ketiga sampel tersebut, diasumsikan terdapat 1 sampel lagi untuk masing-masing nilai income. Dengan cara ini, didapatkanlah probabilitas sebagai berikut (dibulatkan menjadi 3 angka dibelakang koma) : 1 1003^{= 0.001,} 991 1003^{= 0.988 dan} 1 1003= 0.011

Probabilitas yang “dibenarkan” nilainya tidak berbeda jauh dengan hasil probabilitas sebelumnya sehingga nilai probabilitas 0 (nol) dapat dihindari.

2.3.4 Pengukuran Kinerja Klasifikasi

Confusion Matrix

Sebuah sistem klasifikasi diharapkan agar dapat melakukan klasifikasi pada seluruh dataset dengan benar. Akan tetapi tidak semua proses klasfikasi menghasilkan nilai klasifikasi benar 100%. Sehingga, diperlukan suatu teknik pengukuran kinerja untuk mengetahui seberapa besar kinerja dari sistem klasifikasi yang dibangun. Pada umumnya, teknik yang digunakan untuk mengukur kinerja klasifikasi adalah dengan menggunakan matrik konfusi (confusion matrix).

Confusion Matrix menampilkan jumlah prediksi tepat dan tidak tepat yang

dibuat oleh model dibandingkan dengan hasil klasifikasi sebenarnya pada data uji. (Oprea, 2014). Confusion Matrix untuk sebuah classifier dengan 2 kelas yaitu benar (true) dan salah (false) ditunjukkan oleh Tabel 2.1 berikut :

Tabel 2.1 Confusion Matrix

Kelas Hasil Prediksi

Kela

asli

Positif Negatif Positif True Positive (TP) ^{False Negative}

(FN) Negatif False Positive (FP) ^{True Negative}

(TN) (Sumber : Prasetyo, 2014)

True Positive (TP) menunjukkan nilai sampel positif yang diklasifikasikan dengan tepat, sementara True Negative (TN) menunjukkan nilai sampel negatif yang diklasifikasikan dengan tepat. False Positive (FP) adalah nilai sampel negatif yang diklasifikasikan dengan tidak tepat (misalkan nilai sampel dari kelas

buys_computer = no dan classifier memprediksi buys_computer = yes). Sebaliknya, False Negative (FN) adalah nilai sampel positif yang diklasfikasikan dengan tidak tepat (misalkan nilai sampel dari kelas buys_computer = yes dan classifier memprediksi buys_computer = no).

- True Positive Rate (TP Rate) adalah kelas dengan nilai positif yang diprediksi sebagai positif dan setara dengan nilai Recall.

- False Positive Rate (FP Rate) adalah kelas dengan nilai negatif yang diklasifikasikan sebagai positif.

- True Negative Rate (FN Rate) adalah kelas dengan nilai negatif yang diklasifikasikan dengan tepat sebagai negatif.

- False Negative Rate (TN Rate) adalah kelas dengan nilai positif yang

diklasifikasikan dengan tidak tepat sebagai negatif.

Terdapat beberapa pengukuran yang dapat dilakukan berdasarkan nilai dari

Confusion Matrix, diantaranya adalah :

1. Accuracy (Akurasi)

Akurasi merupakan proporsi dari jumlah nilai yang diklasifikasikan dengan tepat dan dihitung sebagai rasio antara jumlah kasus yang diklasifikasikan dengan tepat dengan jumlah kasus keseluruhan. Nilai akurasi adalah persentase tuple set uji yang benar diklasifikasikan oleh classifier. Dalam pengenalan pola, disebut juga sebagai tingkat pengenalan keseluruhan dari classifier, yaitu mencerminkan seberapa baik classifier mengenali tuple dari berbagai kelas. (Han, 2012). Akurasi dapat dihitung dengan menggunakan persamaan 2.7 berikut :

Accuracy = _{𝑇𝑁+𝐹𝑁+𝐹𝑃+𝑇𝑃}^{𝑇𝑁+𝑇𝑃} (2.7) (Sumber : Xhemali, 2009)

Kuantitas dari suatu Confusion Matrix yaitu berupa nilai akurasi. Dengan mengetahui berapa banyak jumlah data yang telah diklasifikasikan dengan tepat, maka dapat diketahui akurasi hasil klasifikasi yang telah dilakukan. 2. Precision

Precision merupakan tingkat ketepatan antara informasi yang diminta oleh

pengguna terhadap hasil jawaban yang diberikan oleh sistem. Dalam bidang pencarian informasi, precision (disebut juga positive prediction value) merupakan metrik untuk mengukur kinerja sistem dalam mendapatkan data yang relevan. (Prasetyo, 2014). Nilai precision dapat dihitung menggunakan persamaan 2.8.

Precision = _{𝑇𝑃+𝐹𝑃}^𝑇𝑃 (2.8) Sumber : Prasetyo, 2014

Recall merupakan tingkat keberhasilan sistem dalam menemukan kembali

informasi yang relevan. Recall (disebut juga sensitivitas) merupakan metrik untuk mengukur kinerja sistem dalam mendapatkan data relevan yang terbaca (dalam bidang pencarian infomasi). (Prasetyo, 2014). Nilai recall dapat dihitung menggunakan persamaan 2.9 berikut :

Recall = ^𝑇𝑃

𝑇𝑃+𝐹𝑁 (2.9)

(Sumber : Prasetyo, 2014)

4. F-measure

F-measure adalah sebuah ukuran yang mengkombinasikan tingkat presisi (precision) dan sensitifitas (recall) sebagai rerata harmoni dari 2 buah parameter. F-measure menunjukkan ukuran timbal balik antara recall dan

precision, dimana rentang nilai measure adalah dari 0 sampai 1. Nilai F-measure yang bagus adalah mendekati atau sama dengan 1 sementara yang

jelek adalah mendekati atau sama dengan 0. F-measure dapat dihitung dengan persamaan 2.10 berikut :

F = 2 𝑥 ^{𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑥 𝑟𝑒𝑐𝑎𝑙𝑙}_{𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑖𝑛+ 𝑟𝑒𝑐𝑎𝑙𝑙}

(

2.10

)

(Sumber : Prasetyo, 2014)

2.3.5 Basis Data (Database)

Basis Data adalah suatu susunan atau kumpulan data operasional lengkap dari suatu organisasi atau perusahaan yang diorganisir atau dikelola dan disimpan secara terintegrasi dengan menggunakan metode tertentu menggunakan komputer sehingga mampu menyediakan informasi optimal yang diperlukan pemakainya. (Marlinda, 2004).

Database adalah kumpulan data yang saling berkaitan, berhubungan yang

disimpan sedemikian rupa tanpa pengulangan yang tidak perlu, untuk memnuhi kebutuhan. Data-data yang disimpan tersebut harus mengandung semua informasi untuk mendukung kebutuhan sistem. Proses atau fungsi dasar yang dimiliki oleh database ada empat, yaitu :

1. Membuat data baru (create) 2. Menambah data (insert) 3. Mengubah data (update) 4. Menghapus data (delete)

Elmasri (2011) mengatakan bahwa sebuah basis data memiliki sifat implisit sebagai berikut.

 Basis data mewakili beberapa aspek dunia nyata, yang terkadang disebut sebagai miniworld or the universe of discourse (UoD). Perubahan ke dunia yang kecil tercermin dalam database.

 Basis data adalah kumpulan data logis yang koheren dengan beberapa makna yang melekat. Sebuah data acak yang random tidak bisa disebut sebagai basis data.

 Basis data dirancang, dibangung dan diisi dengan data untuk tujuan tertentu. Didalamnya terdapat kelompok dengan maksud yang berbeda dan beberapa aplikasi yang telah terbentuk dimana pengguna tersebut memiliki ketertarikan terhadapnya.

Basis data merupakan salah satu komponen yang penting dalam pembentukan suatu sistem informasi, karena menjadi dasar dalam menyediakan informasi kepada para pengguna sistem informasi tersebut. Basis data (database) menjadi penting disebabkan karena munculnya beberapa masalah apabila tidak menggunakan data yang terpusat, misalnya akan terjadi duplikasi data, hubungan antar data yang tidak jelas, melakukan pengelolaan dan update data menjadi rumit. Jadi tujuan dari pengelolaan data menggunaan basis data adalah :

1. Menyediakan penyimpanan data untuk dapat digunakan organisasi pada saat ini dan seterusnya.

2. Cara memasukkan atau menambahkan data sehingga memudahkan tugas operator dan berkaitan dengan waktu yang diperlukan oleh pengguna untuk mendapatkan data serta hak-hak yang dimilikinya terhadap data tersebut. 3. Pengendalian data untuk setiap siklus agar data selalu up-to-date dan dapat

mencerminkan perubahan spesifik yang terjadi pada setiap sistem.

4. Pengamanan data terhadap kemungkinan penambahan, modifikasi, pencurian dan gangguan-gangguan lain.

Dalam basis data sistem informasi digambarkan sebagai model entity

relationship (ER). Bahasa yang digunakan dalam basis data yaitu :

 DDL (Data Definition Language)

DDL merupakan bahasa pendefinisian data yang digunakan untuk membuat dan mengelola objek database seperti database, tabel dan view.

 DML (Data Manipulation Language)

Merupakan bahasa manipulasi data yang digunakan untuk memanipulasi data pada objek database seperti tabel.

 DCL (Data Control Language)

Merupakan bahasa yang digunakan untuk mengendalikan pengaksesan data. Pentusunan basis data meliputi proses memasukkan data kedalam media penyimpanan data dan diatur dengan menggunakan perangkat Sistem Manajemen Basis Data (Database Management System / DBMS).

2.3.6 System Usability Scale (SUS)

System Usability Scale (SUS) pertama kali dikembangkan oleh John Brooke pada tahun 1986 (Brooke. J, 2013) tujuannya adalah memberikan skor referensi tunggal untuk partisipan dalam melihat usability suatu produk. System Usability Scale merupakan suatu skala sederhana terdiri 10 item kuesioner yang memberikan pandangan menyeluruh terkait penilaian yang subyektif dari usability sebuah sistem. SUS menggunakan skala likert, yang terdiri dari 5 poin skala mulai dari sangat setuju sampai sangat tidak setuju.

Instrumen Pengujian SUS

Tabel 2.2 Instrumen Pengujian System Usability Scale

No Pernyataan Skala

1 I think that I would like to use this system.

(Saya berpikir akan menggunakan sistem ini lagi.)

1 s/d 5

2 I found the system unnecessarily complex.

(Saya merasa sistem ini rumit untuk digunakan.)

1 s/d 5

3 I thought the system was easy to use.

(Saya merasa sistem ini mudah untuk digunakan.)

1 s/d 5

4 I think that I would need the support of a technical person to be able to use this system.

(Saya membutuhkan bantuan dari orang lain atau teknisi dalam menggunakan sistem ini.)

1 s/d 5

5 I found the various functions in the system were well integrated.

(Saya merasa fitur-fitur sistem ini berjalan dengan semestinya.)

1 s/d 5

6 I thought there was too much inconsistency in this system.

(Saya merasa ada banyak hal yang tidak konsisten (tidak serasi) pada sistem ini.)

1 s/d 5

7 I would imagine that most people would learn to use this system very quickly.

(Saya merasa orang lain akan memahami cara menggunakan sistem ini dengan cepat.)

1 s/d 5

8 I found the system very cumbersome to use.

(Saya merasa sistem ini membingungkan.)

1 s/d 5

9 I felt very confident using the system.

(Saya merasa tidak ada hambatan dalam menggunakan sistem ini.)

Tabel 2.2 Instrumen Pengujian System Usability Scale (lanjutan)

10 I needed to learn a lot of things before I could get going with this

system.

(Saya perlu membiasakan diri terlebih dahulu sebelum menggunakan sistem ini.)

1 s/d 5

(Sumber : Sharfina, 2016) Perhitungan Hasil System Usability Scale

Nilai SUS dapat dihitung dari hasil kuesioner yang didapat. Untuk melakuka perhitungan nilai SUS dilakukan dengan cara memberikan bobot untuk setiap item dengan skor 0 sampai 4. Aturan perhitungan bobot adalah sebagai berikut :

1. Untuk item no 1,3,5,7, dan 9 nilai yang didapat adalah posisi skala dikurangi 1.

2. Untuk item no 2,4,6,8, dan 10 nilai yang didapat adalah 5 dikurangi posisi skala.

Skor SUS memiliki rentang nilai 0-100, akan tetapi angka tersebut bukan persentase. Sebuah produk dipertimbangkan memiliki usability yang baik apabila memiliki skor SUS sama dengan atau diatas 68. (Sauro, 2011).

Nilai SUS dapat dihitung menggunakan rata-rata dari total responden yang diperoleh, menggunakan persamaan 2.11 sebagai berikut :

𝑁𝑖𝑙𝑎𝑖 𝑟𝑎𝑡𝑎 − 𝑟𝑎𝑡𝑎 = ∑ ^𝑥𝑖 𝑁 𝑛 𝑖=1 (2.11) (Sumber : Pudjoatmodjo, 2016) Dimana :

- x : nilai score responden - N : jumlah responden

Berdasarkan hasil rata-rata, skor SUS dapat dikelompokkan menjadi 3 kategori yang berbeda yaitu :

1. Not Acceptable : 0-50. 2. Marginal : 50-70. 3. Acceptable : 70-100.

Dalam dokumen Implementasi Data Mining untuk Prediksi Mahasiswa Pengambil Mata Kuliah dengan Algoritme Naive Bayes (Halaman 23-34)