• Tidak ada hasil yang ditemukan

Bab ini memuat kesimpulan umum yang diperoleh dari pembuatan sistem serta rancangan pengembangan sistem ke depan.

Berdasarkan analisa di atas, maka diharapkan sistem yang dibangun akan berfungsi sesuai dengan perencanaan sehingga dapat membantu pihak – pihak yang terlibat dan untuk waktu yang akan datang sistem ini dapat dikembangkan lagi. Pada Bab II akan dipaparkan landasan teori yang mendukung penelitian.

BAB II

LANDASAN TEORI

Pada bab ini akan dipaparkan teori-teori yang mendukung pembuatan Sistem Pendukung Keputusan Penyeleksian Calon Siswa SMA Katolik Frateran Podor dengan menggunakan Metode Bayesian. Teori pendukung tersebut adalah Sistem Pendukung Keputusan, Database, dan Data Mining. Pada bagian Data Mining, akan dijelaskan juga mengenai metode Bayesian sebagai metode yang digunakan dalam sistem.

2.1 Sistem Pendukung Keputusan

2.1.1 Sistem

Sistem ( Turban, Aronson, Liang 2005 ) adalah kumpulan objek seperti orang, sumber daya, konsep, dan prosedur yang dimaksudkan untuk melakukan suatu fungsi yang dapat diidentifikasi atau untuk melayani suatu tujuan.

Struktur Sistem

Menurut Turban et al. (2005) sistem dibagi menjadi tiga bagian berbeda : input, proses, dan output. Bagian-bagian tersebut dikelilingi oleh sebuah lingkaran dan sering melibatkan sebuah mekanisme umpan balik. Selain itu, pengambilan keputusan juga dianggap sebagai bagian dari sistem.

a. Input

Input adalah elemen yang masuk ke dalam sistem.

b. Proses

Proses adalah semua elemen yang diperlukan untuk mengonversi atau mentransformasikan input ke dalam output.

c. Output

Output adalah produk finis atau konsekuensi yang ada pada sistem.

d. Umpan Balik

Ada aliran informasi dari komponen output ke pengambil keputusan berkenaan dengan output atau performa sistem. Berdasarkan output, pengambil keputusan, yang bertindak sebagai kontrol, dapat memutuskan untuk memodifikasi input, proses, atau keduanya. Aliran informasi ini, muncul sebagai closed loop, disebut umpan balik. Pengambilan keputusan membandingkan output dengan output yang diharapkan dan menyesuaikan input dan mungkin proses untuk makin mendekati output target.

e. Lingkungan

Lingkungan sistem terdiri dari beberapa elemen yang ada di luar, dalam hal mereka bukanlan input, output, atau proses. Akan tetapi, mereka mempengaruhi performa sistem dan konsekuensi pencapaian tujuan sistem.

f. Batasan

Sistem dipisahkan dari lingkungannya dengan sebuah batasan. Sistem berada di dalam batasan, sedangkan lingkungan berada di luar.

Batasan dapat berupa fisik atau dapat berupa faktor non-fisik. Sebagai contoh, sistem dapat dibatasi oleh waktu.

Batasan sebuah sistem informasi biasanya ditentukan dengan mempersempit lingkup sistem untuk mempermudah analisis. Dengan kata lin, batasan sebuah sistem pendukung keputusan adalah desain. Batasan dikaitkan dengan konsep sistem tertutup dan terbuka (closed

system dan open system).

(Turban, et al. 2009)

Sistem Tertutup dan Sistem Terbuka

Sistem tertutup mencerminkan tingkat independensi sistem. Sistem tertutup sama sekali independen, sedangkan sistem terbuka sangat tergantung pada lingkungannya. Sistem terbuka menerima input dari lingkungan dan dapat mengirim output kepada lingkungan.

Ketika menentukan dampak keputusan pada sebuah sistem terbuka, harus ditentukan hubungan sistem dengan lingkungan dan dengan sistem lainnya. Pada sistem tertutup, tidak perlu dilakukan hal tersebut karena sistem dianggap diisolasi. Sistem pendukung keputusan berusaha berhubungan dengan sistem-sistem yang cukup terbuka. (Turban et al. 2005)

Efektifitas dan Efisiensi Sistem

Sistem dievaluasi dan dianalisa dalam dua ukuran kinerja utama : efektivitas dan efisiensi.

berkaitan dengan output sebuah sistem. Efektivitas adalah melakukan sesuatu yang benar.

b. Efisiensi adalah ukuran pemakaian input (sumber daya) untuk mencapai output. Efisiensi adalah melakukan sesuatu dengan benar. (Turban et al. 2005)

2.1.2 Model

Karakteristik utama sebuah sistem pendukung keputusan adalah inklusi pada sedikitnya satu model. Model merupakan representasi atau abstraksi sederhana dari realitas. Model dapat merepresentasikan sistem atau masalah dengan berbagai tingkatan abstraksi, (Turban, et al. 2009).

2.1.3 Pengambilan Keputusan

Pengambilan keputusan adalah sebuah proses memilih tindakan (di antara berbagai alternatif) untuk mencapai suatu tujuan atau beberapa tujuan.

Sistem Pendukung Keputusan merupakan sistem komputer yang interaktif, yang membantu pengambil keputusan memanfaatkan data dan model untuk menyelesaikan masalah-masalah yang terstruktur (Irfan, 2002).

Sistem Pendukung Keputusan sebagai sebuah sistem berbasis komputer yang membantu dalam proses pengambilan keputusan. SPK sebagai sistem informasi berbasis komputer yang adaptif, interaktif, fleksibel, yang secara khusus dikembangkan untuk mendukung solusi dari suatu permasalahan yang tidak terstruktur untuk meningkatkan kualitas pengambilan keputusan. Dengan demikian dapat ditarik satu definisi tentang SPK yaitu sebuah sistem berbasis

komputer yang adaptif, fleksibel, dan interaktif yang digunakan untuk memecahkan masalah-masalah tidak terstruktur sehingga meningkatkan nilai keputusan yang diambil.

Sistem Pendukung Keputusan juga digunakan untuk membantu manajeman dalam memecahkan masalah yang dihadapi ( McLeod 1998 ). Selain itu, dapat didefinisikan sebagai sebuah sistem penghasil informasi spesifik yang ditujukan untuk memecahkan suatu masalah tertentu yang harus dipecahkan oleh manajer pada berbagai tingkatan.

Sistem Pendukung Keputusan juga dapat diartikan sebagai suatu sistem informasi berbasis komputer yang menghasilkan berbagai alternatif keputusan untuk membantu manajemen dalam menangani berbagi permasalahan yang terstruktur ataupun tidak terstruktur dengan menggunakan model atau data.

Tujuan dari Sistem Pendukung Keputusan yang dikemukakan oleh Keen dan Scoot dalam buku Sistem Informasi Manajemen (McLeod 1998) adalah :

a. Membantu organisasi membuat sebuah keputusan untuk memecahkan masalah semiterstruktur.

b. Mendukung penilaian organisasi, dan tidak bermaksud menggantikan. c. Meningkatkan efektifitas pengambilan keputusan organisasi daripada

Tahap-tahap Pengambilan Keputusan

Ada beberapa tahap pengambilan keputusan seperti yang dikemukakan oleh Agus, 2009 dibawah ini :

a. Tahap Penelusuran (Intelligence Phase)

Suatu tahap dimana seseorang dalam rangka pengambilan keputusan untuk permasalahan yang dihadapi, terdiri dari aktivitas penelusuran, pendeteksian serta proses pengenalan masalah. Data masukan diperoleh, diuji dalam rangka mengidentifikasi masalah. b. Tahap Perancangan (Design Phase)

Tahap proses pengambil keputusan setelah tahap intelligence

meliputi proses untuk mengerti masalah, menurunkan solusi dan menguji kelayakan solusi. Aktivitas yang biasanya dilakukan seperti menemukan, mengembangkan dan menganalisa alternatif tindakan yang dapat dilakukan.

c. Tahap Pilihan (Choice Phase)

Pada tahap ini dilakukan proses pemilihan diantara berbagai alternatif tindakan yang mungkin dijalankan. Hasil pemilihan tersebut kemudian diimplementasikan dalam proses pengambilan keputusan. d. Tahap Implementasi (Implementation Phase)

Tahap ini merupakan tahap pelaksanaan dari keputusan yang telah diambil. Pada tahap ini perlu disusun serangkaian tindakan yang terencana, sehingga hasil keputusan dapat dipantau dan disesuaikan apabila diperlukan perbaikan-perbaikan.

Komponen-Komponen Sistem pendukung Keputusan

Sistem Pendukung Keputusan dapat terdiri dari subsistem sebagai berikut: a. Subsistem manajemen data

Subsistem manajemen data memasukkan satu database yang berisi data yang relevan untuk situasi dan dikelola oleh perangkat lunak yang disebut sistem manajemen database ( DBMS ). Subsistem manajemen data dapat diinterkoneksikan dengan data warehouse

perusahaan, suatu repositori untuk data perusahaan yang relevan untuk pengambilan keputusan.

b. Subsistem manajemen model

Merupakan paket perangkat lunak yang memasukkan model keuangan, statistik, ilmu manajemen, atau model kuantitatif lainnya yang memberikan kapabbilitas analitik dan manajemen perangkat lunak yang tepat. Bahasa-bahasa pemodelan untuk membangun model-model kustom juga dimasukkan. Perangkat lunak ini sering disebut sistem manajemen basis model ( MBMS ).

c. Susbsistem antarmuka pengguna

Pengguna berkomunikasi dengan dan memerintahkan sistem pendukung keputusan melalui subsistem ini. Pengguna adalah bagian yang dipertimbangkan dari sistem.

d. Subsistem manajemen berbasis-pengetahuan

Subsistem ini dapat mendukung semua subsistem lain atau bertindak sebagai suatu komponen independen. Sistem ini

berinteligensi untuk memperbesar pengetahuan pengambil keputusan. Subsistem ini dapat diinterkoneksikan dengan repositori pengetahuan perusahaan yang terkadang disebut basis pengetahuan organisasional.

Berdasarkan keterangan di atas, sebuah sistem pendukung keputusan harus mencangkup tiga komponen yakni DBMS, MBMS, dan antarmuka pengguna. Sedangkan subsistem manajemen berbasis pengetahuan adalah opsional, namun dapat memberikan banyak manfaat karena memberikan inteligensi bagi tiga komponen utama tersebut. (Turban, et al. 2009)

2.2 Penambangan Data ( Data Mining )

Istilah penggalian data ( data mining ) merupakan proses pencarian informasi yang bernilai di basis data yang besar, gudang data, atau data mart. Alat penggalian data mengidentifikasi pola yang sebelumnya tersembunyi dalam satu langkah.( Turban, et al. 2005 )

Beberapa pengertian penambangan data menurut sejumlah penulis adalah : 1. Definisi sederhana dari penambangan data adalah ekstraksi informasi

atau pola yang penting atau menarik dari data yang ada di database yang besar. ( Yudho, 2003 )

2. Penambangan data adalah suatu data percobaan untuk memperoleh informasi yang berguna yang tersimpan dalam basisdata yang sangat besar. ( Mitra dan Acharya, 2003 )

Dari pengertian di atas, dapat diartikan bahwa penambangan data sebagai proses pengambilan pola atau informasi pada data dalam jumlah besar yang tersimpan dalam database.

Penambangan data dapat menjalankan fungsi-fungsi berikut: a. Deskripsi

Pola dan trend data sering dideskripsikan. Deskripsi tersebut sangat membantu dalam menjelaskan pola dan trend yang terjadi. Model data mining harus setransparan mungkin, dimana hasilnya dapat mendeskripsikan pola dengan jelas.

b. Estimasi

Estimasi mirip dengan klasifikasi kecuali variabel target-nya numerik ketimbang kategorikal. Model yang dibangun menggunakan

record yang lengkap, yang menyediakan nilai variabel target dan

predictor. Untuk observasi yang baru, estimasi nilai variabel target ditentukan, berdasarkan nilai-nilai predictor.

c. Prediksi

Sasaran pada tugas ini adalah memprediksikan nilai atribut tertentu berdasarkan nilai atribut yang lain. Atribut yang diprediksi dikenal sebagai target atau variabel yang tergantung pada variabel lain, atribut yang digunakan selama membuat prediksi dikenal sebagai penjelasan ( explanatory ) atau variabel yang bebas.

Dalam klasifikasi, variabel target-nya merupakan kategorikal. Model data mining memeriksa set record yang besar, tiap record

mempunyai informasi variabel target dan set input atau variabel

predictor.

e. Clustering

Clustering merupakan pengelompokkan record, observasi, atau

kasus ke dalam kelas-kelas objek yang mirip. Clustering berbeda dengan klasifikasi dimana dalam clustering tidak terdapat variabel target. Clustering mencoba menyegmentasi seluruh set data ke dalam

subgroup atau cluster yang relatif homogen, dimana kemiripan antar

record dalam cluster dimasikimasi dan kemiripan record di luar

cluster diminimasi.

f. Asosiasi

Asosiasi merupakan suatu tugas untuk menemukan atribut-atribut yang “terjadi” bersamaan. Tugas asosiasi mencoba untuk menemukan aturan untuk mengkuantifikasi hubungan antara dua atau lebih atribut. Aturan asosiasi berbentuk “If antecedent, then

consequent”, bersama-sama dengan ukuran support dan confidence

yang berhubungan dengan aturan.

Proses Penambangan Data

Proses penambangan data tidak dapat dipisahkan dengan Knowledge Discovery in Database ( KDD ), karena penambangan data merupakan salah satu

tahap dari proses KDD yang mempergunakan analisa data dan penggunaan algoritma, sehingga menghasilkan pola-pola khusus dalam basis data yang besar.

Berikut ini merupakan langkah-langkah dalam membangun penambangan data (Han&Kamber, 2006):

1. Pembersihan data ( data cleaning )

Proses ini dilakukan untuk membuang data noice dan yang tidak konsisten akan dihapus. Langkah pertama yang dilakukan dalam proses pembersihan data adalah mendeteksi ketidakcocokan. Ketidakcocokan tersebut dapat disebabkan oleh beberapa factor antara lain adanya kesalahan petugas ketika memasukkan data, kemungkinan adanya kesalahan yang disengaja dan adanya data yang tidak sesuai. 2. Integrasi data ( data integration )

Pada proses ini akan dilakukan penggabungan data. Data digabungkan dari beberapa tempat penyimpanan akan digabungkan ke dalam satu tempat penyimpanan data yang koheren.

3. Seleksi data ( data selection )

Pada proses ini data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini, akan dilakukan analisis korelasi untuk analisa fitur. Atribut – atribut data yang ada akan dilakukan pengecekkan apakah atribut tersebut relevan untuk di-mining. Atribut yang tidak relevan atau atribut yang mengalami redudansi tidak akan digunakan atau diabaikan. Atribut yang akan digunakan adalah atribut yang bersifat independen. Atribut yang independen adalah atribut

yang antara satu atribut dengan atribut yang lainnya tidak saling mempengaruhi.

4. Transformasi data ( data transformation )

Pada proses ini data ditransformasikan ke dalam bentuk yang tepat untuk di-mining. Yang termasuk dalam proses transformasi data adalah penghalusan ( smooting ) yaitu proses menghilangkan noise

yang ada pada data, generalisasi ( generalization ) yaitu mengganti data primitive atau data level rendah menjadi data level tinggi, normalisasi ( normalization ) yaitu mengemas data atribut ke dalam skala yang kecil, dan konstruksi atribut atau fitur ( attribute

construction atau feature construction ) yaitu mengkonstruksi dan

menambahkan atribut baru untuk membantu dalam proses penambangan.

5. Penambangan data ( data mining )

Pada proses ini akan diaplikasikan metode yang tepat untuk mengekstrak pola data.

6. Evaluasi pola ( pattern evaluation )

Proses ini dilakukan untuk mengidentifikasi pola yang benar dan menarik. Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting.

7. Presentasi pengetahuan ( knowledge presentation )

Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna.

Tahapan tersebut dapat diilustrasikan kedalam gambar berikut :

Gambar 2.1 Tahapan dalam Data Mining

Sumber:Han&Kamber(2006)

Pada proses penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Dalam proses di atas, penambangan data hanya terdapat dalam satu langkah. Penambangan data ini merupakan proses yang sangat penting karena dalam proses ini bisa ditemukan pola yang nantinya akan dievaluasi.

Secara umum, pekerjaan penambangan data bisa dikelompokkan menjadi dua kategori, yakni : deskriptif dan prediktif. Tugas penambangan deskriptif adalah menggolongkan sifat-sifat umum data dalam basis data. Sedangkan tugas

penambangan prediktif adalah menampilkan kesimpulan dari data yang sekarang ada untuk membuat sebuah prediksi.

Jenis pola yang dapat diketahui dari penambangan data salah satunya adalah klasifikasi dan prediksi. Klasifikasi merupakan model yang dibangun untuk memprediksi label-label kategorikal yang direpresentasikan dengan nilai diskrit. Prediksi numerik merupakan model yang dibangun untuk memprediksi fungsi nilai yang kontinyu (continuous-valued function) ataupun nilai yang terurut

(ordered value). Klasifikasi dan prediksi angka ini merupakan jenis permasalahan

prediksi (Han&Kamber, 2006).

Klasifikasi data terdiri dari dua proses. Pada proses pertama, classifier

membangun gambaran konsep atau kelas data yang telah ditentukan sebelumnya. Langkah ini dinamakan langkah pembelajaran (learning) atau fase pelatihan. Pada fase pelatihan ini, algoritma klasifikasi yang diterapkan akan membangun sebuah

classifier. Caranya adalah dengan belajar dari sekumpulan data pelatihan yang

diambil dari tuple basis data. Karena label kelas dari setiap tuple pelatihan sudah tersedia maka fase ini juga dikenal dengan sebutan fase supervised learning.

Pada proses kedua, model langsung digunakan untuk diklasifikasi. Pertama, akan ditaksir seberapa akurat prediksi yang dibuat oleh classifier. Jika keakuratan classifier diukur dengan menggunakan data pelatihan, maka taksiran ini akan baik karena classifier cenderung overfit data. Maka dari itu, perlu digunakan sekumpulan data uji. Data tersebut dipilih secara acak dari sekumpulan data umum. Data yang diuji ini bersifat independen dari data pelatihan, artinya data yang diuji tersebut tidak lagi digunakan untuk membuat classifier.

Salah satu cara penyelesaian masalah-masalah yang berkaitan dengan klasifikasi adalah dengan menggunakan teorema naïve Bayesian.

2.3 Metode Naive Bayesian

Teorema Bayesian mengungkapkan bahwa hasil probabilitas posterior sebanding dengan hasil perkalian antara likelihood dengan probababilitas prior. Probabilitas posterior adalah probabilitas bersyarat dari sebuah hipotesis jika diberikan data. Likelihood adalah probabilitas bersyarat dari sebuah data jika diberikan hipotesis. Probabilitas prior adalah probabilitas bahwa hipotesis itu benar sebelum data terlihat.

Misalkan X adalah tuple data dan H adalah hipotesis. Untuk masalah klasifikasi, akan ditentukan P(H|X), yaitu probabilitas bersyarat di mana probabilitas hipotesis H ditentukan oleh data X. P(H|X) adalah probabilitas

posterior dari kondisi H terhadap X. P(X|H) adalah probabilitas posterior dari X

berdasarkan H. P(H) adalah probabilitas prior dari H. P(X) adalah probabilitas

prior dari X. Kalkulasi dari probabilitas-probabilitas tersebut sebagai berikut :

P(H|X)= ( | ) ( )( ) ……….………(2.1)

Keterangan:

X himpunan data pelatihan. H hipotesis.

P(H|X) probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis H setelah data X muncul.

P(H) probabilitas prior dari hipotesis H yaitu probabilitas bahwa hipotesis H bernilai benar sebelum data X muncul.

P(X) probabilitas dari data X.

P(X|H) probabilitas bersyarat dari X yang berasal dari hipotesis H, dan biasa disebut dengan likelihood.

likelihood ini mudah dihitung ketika memberikan

nilai 1 saat X dan H konsisten, dan memberikan nilai 0 saat X dan H tidak konsisten.

Naïve Bayesian adalah penggolong yang bersifat statistik. Penggolong

NaïveBayesian dapat memprediksi probabilitas kelas. Penggolong naïve Bayesian

didasarkan pada asumsi bahwa kehadiran atau keberadaan fitur tertentu dari sebuah kelas tidak berhubungan dengan kehadiran atau keberadaan fitur lainnya. Artinya, atribut dari sebuah kelas adalah independen dengan nilai atribut lainnya. Rumusnya adalah:

P(H|x)= ( | ) ( | ) … ( | ) ( )

( ) ………(2.2)

Keterangan:

X himpunan data pelatihan.

H hipotesis.

hipotesis H setelah data X

muncul.

P(H) probabilitas prior dari

hipotesis H sebelum X

muncul.

P(X) probabilitas dari data X. P(H)

mempunyai nilai yang sama dengan kelas yang lain atau

irrelevant.

( | ) ( | ) … ( | ) ( ) probabilitas dari , , untuk hipotesis H, biasa disebut dengan likelihood.

Penggolong Naïve Bayesian bekerja seperti berikut :

1. Anggap D adalah kumpulan data pelatihan dari tuple dan D berhubungan dengan label kelas.

2. Andaikan ada m kelas, C1, C2, … , Cm. Jika disediakan tuple X, penggolong Naïve Bayesian memprediksi X ke dalam kelas yang mempunyai probabilitas posterior tertinggi. Maka penggolong

Naïve Bayesian memprediksi tuple X termasuk ke dalam kelas Ci

jika dan hanya jika

Dengan demikian P(Ci|X) akan dimaksimalkan. Kelas Ci untuk setiap P(Ci|X) yang dimaksimalkan dinamakan maximum posteriori hypothesis.

Berdasarkan teorema Bayes adalah :

( | ) = ( | ) ( )

( ) ……….( 2.4 )

3. Selama P(X) konstan untuk semua kelas maka hanya P(X|Ci)P(Ci)

yang dimaksimalkan. Jika kelas probabilitas prior tidak diketahui, maka kelas - kelas tersebut diasumsikan sama, yaitu

P(C1) = P(C2) = … = P(Cm), oleh karena itu P(X|Ci) akan dimaksimalkan. Jika tidak, P(X|Ci)P(Ci) yang akan dimaksimalkan 4. Misalkan data terdiri dari banyak atribut. Untuk mengurangi kerumitan komputasi dalam mengevaluasi P(X|Ci), naïve

mengasumsikan ada class conditional independence. Maka,

P(X|Ci) = ∏ ( | )……..………..(2.5)

= ( | ) × ( | ) × … × ( | )………(2.6)

xkmerujuk pada nilai atribut Ak untuk tuple X. Untuk setiap atribut, akan dicek apakah atribut tersebut adalah atribut kategorikal atau atribut yang nilainya kontinyu. Sebagai contoh, untuk menghitung P(X|Ci), perlu dipertimbangkan hal berikut ini :

a. Jika Ak adalah atribut kategorikal, maka ( | ) adalah jumlah tuple dari kelas dalam D yang mempunyai nilai Xk

untuk Ak, dibagi dengan |Ci, D|, |Ci, D| adalah jumlah tuple

pada kelas Ci dalam D.

P(Xk | Ci) = |Xki|/ Nci………..………(2.7)

Keterangan

P(Xk|Ci) probabilitas likelihood dari atribut Xk dalam kelas Ci

Xki jumlah atribut Xk yang termasuk dalam kelas Ci

Nci jumlah Ci

b. Jika Ak adalah atribut yang nilainya kontinyu, maka perhitungan menjadi lebih rumit karena melibatkan distribusi

Gaussian dengan mean μ dan standar deviasi σ. Rumusnya

adalah sebagai berikut: g( , , ) = ( ) ………..(2.8) maka, P(Xk|Ci) = ( , , )…………..………..(2.9) Keterangan:

P(Xk|Ci) probabilitas likelihood dari atribut dalam kelas Ci.

Xk nilai atribut Xk

μCi nilai rata-rata dari kelas Ci.

5. Untuk memprediksi label kelas X, P(X|Ci)P(Ci) perlu dievaluasi untuk setiap kelas Ci. Penggolong naïve Bayesian memprediksi label kelas tuple X adalah Ci jika dan hanya jika P(X|Ci)P(Ci) > P(X|Cj)P(Cj) untuk 1≤ j m, j i. Dengan kata lain, prediksi suatu label kelas adalah kelas Ciuntuk P(X|Ci)P(Ci) adalah maksimum. (Han&Kamber, 2006).

2.4 ZK Framework

Hubungan ZK dengan java yaitu secara garis besar ZK merupakan script yang digunakan untuk mengelola interface program, di dalamnya berisi kode untuk view data. Sedangkan java adalah mesin/bahasa yang digunakan untuk mengolah dan mengontrol data yang akan ditampilkan ke ZK atau sebaliknya dari

ZK data diolah dengan java dan disimpan ke database menggunakan spring. Jadi

ZK berada di atasnya java yang berfungsi sebagai layer presentasi data.

2.5 k-fold Cross Validation

Cross Validation adalah salah satu metode yang bisa digunakan untuk

mengukur kinerja dari sebuah model prediktif. Dalam k-fold Cross Validation, data akan dipartisi secara acak ke dalam k partisi, D1, D2, …Dk, masing-masing D mempunyai jumlah yang sama. Jika salah satu partisi digunakan sebagai data uji, maka partisi lainnya digunakan sebagai data pelatihan.

Untuk pengklasifikasian, pengukuran keakurasian dapat dihitung dengan cara seluruh jumlah klasifikasi yang benar dari k iterasi, dibagi dengan seluruh data.

2.6 Korelasi

Analisis korelasi digunakan untuk memilih atribut yang akan digunakan untuk perhitungan. Hal ini diperlukan karena dalam metode Naïve Bayesian diperlukan atribut yang independen sehingga dengan analisis korelasi dapat diketahui atribut yang sifatnya independen satu dengan yang lain.

Analisis korelasi merupakan salah satu dari metode statistik. Metode ini digunakan untuk menyelidiki hubungan antara dua buah variabel atau antar set variabel. Nilai korelasi berkisar antara -1 hingga 1. Nilai korelasi -1 berarti bahwa hubungan antara dua variabel adalah hubungan negatif sempurna. Nilai korelasi 0 berarti bahwa hubungan antara dua variabel dapat diabaikan atau dengan kata lain tidak ada hubungan antara dua variabel. Niali korelasi 1 berarti bahwa terdapat hubungan positif sempurna antara dua variabel. (Sofyan Yamin, 2009)

Interpretasi dari besarnya nilai korelasi antara variable dapat diklasifikasikan sebagai berikut:

Tabel 2.1 Tabel Interpretasi Hubungan Korelasi Besar Korelasi Hubungan Korelasi

0,00 – 0,09 Hubungan korelasinya diabaikan 0,10 – 0,29 Hubungan korelasi rendah 0,30 – 0,49 Hubungan korelasi moderat 0,50 – 0,70 Hubungan korelasi sedang

2.7 Tingkat Keakuratan Penggolong

Keakuratan penggolong dapat diukur dari data uji. Keakuratan penggolong (jika diberikan data uji) adalah persentasi dari dari tuple data uji yang telah diprediksi dengan benar oleh penggolong.

Confusion matrix adalah alat yang berguna untuk menganalisis sebagus

apa sebuah penggolong dapat mengenal tuple dari kelas-kelas yang berbeda. Jika ada m kelas, maka confusion matrix adalah tabel yang berukuran m x m. CMij adalah inputan pada baris m yang pertama dan kolom m yang pertama. CMij menunjukkan jumlah tuple dari kelas i yang sudah dilabeli oleh penggolong sebagai kelas j.

Tabel 2.2 Tabel Confussion Matrix

C1 C2 Kelas yang sebenarnya C1 Benar positif Salah negatif C2 Salah positif Benar positif

Jika diberikan dua kelas, ada terminologi tuple positif dan tuple negatif. Benar positif merujuk pada tuple positif yang dilabeli oleh penggolong secara

Dokumen terkait