• Tidak ada hasil yang ditemukan

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER

N/A
N/A
Protected

Academic year: 2021

Membagikan "KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN CLASSIFIER"

Copied!
18
0
0

Teks penuh

(1)

KLASIFIKASI PADA DATA MINING MENGGUNAKAN NAIVE BAYESIAN CLASSIFIER CLASSIFICATION FOR DATA MINING USING NAIVE BAYESIAN

CLASSIFIER

Agustina Ratna Puspitasari¹, -²

¹Teknik Informatika, Fakultas Teknik Informatika, Universitas Telkom

Abstrak

Klasifikasi dapat diterapkan untuk mengatasi data explosion problem. Dengan adanya klasifikasi maka data-data yang sebelumnya kurang dimanfaatkan bisa digunakan untuk menemukan informasi berharga yang sebelumnya tidak diketahui.

Pada Tugas Akhir ini dilakukan pembangunan perangkat lunak untuk klasifikasi menggunakan metode Naive Bayesian Classifier yang merupakan pendekatan dengan ilmu statistik yaitu

pengklasifikasian data berdasarkan pemilihan probabilitas tertinggi. Atribut yang digunakan bisa berupa atribut continuous maupun atribut diskret. Selain itu pada Tugas Akhir ini juga dilakukan penanganan probabilitas nol dan missing value pada atribut non-class.

Setelah dilakukan analisis dan pengujian ternyata metode yang sederhana ini mampu

mengklasifikasikan data cukup akurat. Tugas Akhir ini dibangun menggunakan Borland Delphi 7 dan Oracle 8i versi 8.1.7

Kata Kunci : klasifikasi, naive bayesian classifier, probabilitas

Abstract

Classification overcomes data explosion problems. With classification, the data that previously less be exploited can be used to find valuable information that unknown before.

In this final project, the software for classification was built using Naive Bayesian Classifier method that uses statistics approach with highest probability for data classification. It uses continuous and discret attribute and also handling null probability and missing value in non-class attribute.

After analysis and testing done, we can result that this simple method can classify data accurately enough. This final project was built using Borland Delphi 7 and Oracle 8i version 8.1.7

(2)

BAB I PENDAHULUAN

1.1 Latar Belakang

Saat ini sering terjadi data explosion problem yaitu data – data yang tersimpan dalam database berjumlah sangat besar namun dari data –data tersebut belum banyak dimanfaatkan terutama dalam hal pencarian informasi berharga (knowledge). Untuk mengatasi hal tersebut salah satunya adalah dengan menggunakan data mining karena data mining dapat membantu membuat hipotesis baru ataupun membantu analis untuk menemukan informasi berharga dari data tersebut.

Salah satu fungsionalitas data mining adalah klasifikasi. Klasifikasi adalah proses mencari identitas umum diantara entitas-entitas yang berbeda dan mengklasifikasikannya ke dalam class yang sesuai. Klasifikasi pada data yang berjumlah besar dan kompleks jika dilakukan secara manual akan sulit dan membutuhkan waktu yang lama. Hal ini dapat diatasi dengan pembangunan suatu tools klasifikasi karena dengan adanya tools klasifikasi data yang berjumlah besar dan kompleks tersebut akan lebih mudah dan cepat dikelompokkan sesuai dengan class-nya masing-masing.

Klasifikasi dapat dilakukan pada banyak bidang, diantaranya bidang ekonomi, kesehatan, dan pendidikan. Pada Tugas Akhir ini metode yang digunakan dalam pembangunan klasifikasi adalah Naive Bayesian Classifier karena metode ini merupakan metode klasifikasi yang sederhana yaitu berdasarkan pada probabilitas namun mampu mengklasifikasikan data cukup akurat.

1.2 Perumusan Masalah

Permasalahan yang dijadikan obyek penelitian dan pengembangan Tugas Akhir ini adalah bagaimana mengimplementasikan dan menganalisis metode

1

(3)

2

Naive Bayesian Classifier untuk klasifikasi pada data mining dengan beberapa macam tipe atribut, missing value terhadap akurasi pengklasifikasian data.

1.3 Tujuan

Berdasarkan pada masalah yang telah didefinisikan di atas, maka tujuan Tugas Akhir ini adalah:

1. Mengimplementasikan metode Naive Bayesian Classifier untuk mengklasifikasikan data

2. Menangani missing value pada atribut.

3. Menangani probabilitas nol yang mungkin terjadi pada data training.

4. Menangani penghitungan atribut continuous dengan menggunakan Gaussian Density Function dan pendiskretisasian dengan menggunakan Entropy – Minimum Description Length (E-MDL)

5. Menghitung keakuratan pengklasifikasian data yang didahului dengan uji kebenaran terhadap model yang dibangun

6. Menganalisis perilaku Naive Bayesian Classifier terhadap akurasi pengklasifikasian data.

1.4 Batasan Masalah

Dalam Tugas Akhir ini, batasan masalah yang digunakan untuk pembangunan klasifikasi menggunakan Naive Bayesian Classifier sebagai berikut :

1. Data yang akan dijadikan kajian berupa record dan terbagi menjadi 2 kelompok, yaitu data training dan data testing.

2. Data sudah tersimpan dalam database, user memilih data yang ingin diklasifikasikan.

3. Nilai dari suatu atribut independence terhadap nilai atribut lainnya.

4. Tidak membandingkan metode naive bayesian classifier dengan metode klasifikasi lain.

(4)

3

6. Tidak melakukan penanganan noise.

1.5 Metodologi

Langkah – langkah yang digunakan dalam merealisasikan tujuan dan pemecahan masalah di atas adalah :

1. Studi Literatur

Mempelajari konsep-konsep klasifikasi data mining dan Naive Bayesian Classifier secara global yang diperoleh dari buku dan jurnal. 2. Pendalaman materi

Mendalami materi yang akan digunakan yaitu konsep klasifikasi dan metode Naive Bayesian Classifier

3. Perancangan dan implementasi

Merancang dan membangun perangkat lunak sebagai alat bantu dalam proses analisis.

4. Analisis dan Evaluasi

Melakukan uji kebenaran pengklasifikasian data dengan menghitung akurasi.

1.6 Sistematika Penulisan

Tugas Akhir ini disusun berdasarkan sistematika sebagai berikut :

BAB I Pendahuluan

Bab ini meliputi latar belakang, perumusan masalah, tujuan, batasan masalah, metodologi dan sistematika penulisan.

BAB II Dasar Teori

Bab ini memuat berbagai dasar teori yang mendukung dan mendasari penulisan Tugas Akhir ini yaitu mengenai konsep data mining, klasifikasi, dan Naive Bayesian Classifier

BAB III Analisis dan Perancangan Sistem

(5)

4

Dalam bab ini diuraikan tentang analisis, perancangan pembangunan perangkat lunak sebagai alat bantu dalam proses analisis.

BAB IV Implementasi dan Pengujian

Bab ini memuat tentang analisis terhadap keakuratan pegklasifikasian data menggunakan metode Naive Bayesian Classifier dengan menggunakan beberapa macam tipe atribut.

BAB V Kesimpulan dan Saran

Bab ini berisi kesimpulan yang diambil dari pembahasan bab-bab sebelumnya serta saran-saran untuk pengembangan selanjutnya.

(6)

5

Powered by TCPDF (www.tcpdf.org)

(7)

BAB IV

IMPLEMENTASI DAN PENGUJIAN

4.1 Metode Uji Coba Sistem

Pada bab ini dilakukan pengujian terhadap dataset untuk mengetahui tingkat akurasi ( kebenaran ) pengklasifikasian data menggunakan Naive Bayesian Classifier. Pengujian dilakukan untuk mengetahui pengaruh penggunaan parameter yaitu missing value, jumlah class serta pemilihan penghitungan atribut continuous terhadap akurasi pengklasifikasian data. Selain itu juga dilakukan analisis perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu apakah diperlakukan sebagai atribut diskret atau continuous dan pengaruhnya terhadap akurasi pengklasifikasian data.

4.2 Data Uji yang Digunakan

Data yang digunakan untuk melakukan klasifikasi terbagi menjadi 2 yaitu data training dan data testing. Data – data tersebut mempunyai jumlah record yang berbeda . Atribut class terletak pada posisi paling kanan dari suatu record. Berikut adalah nama data beserta pertimbangan yang digunakan dalam pemilihan data:

a. Breastcancer

Mempunyai 9 atribut non-class yang bertipe continuous dan 1 atribut class bertipe diskret serta terdapat missing value pada atribut non-class. Nilai atribut non-class berkisar antara 1-10 dan akan digunakan untuk mengetahui perilaku Naive Bayesian Classifier terhadap atribut yang mempunyai nilai numerik dengan range tertentu.

b. Iris

Mempunyai 4 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret.

(8)

c. Glass

Mempunyai 9 atribut non-class bertipe continuous dan 1 atribut class bertipe diskret. Pada dataset terdapat 6 nilai class yang akan dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi

d. Zoo

Mempunyai 15 atribut class bertipe diskret, 1 atribut non-class bertipe continuous dan 1 atribut non-class bertipe diskret. Pada dataset terdapat 7 nilai class yang bisa dikonversi menjadi 2 nilai class untuk mengetahui pengaruh jumlah class terhadap akurasi.

e. Lenses

Mempunyai 4 atribut non-class dan 1 atribut class bertipe diskret.

Tabel 4.1 Spesifikasi Data Pengujian Nama data training Jumlah

record training

Nama data testing Jumlah record testing Keterangan Breastcancertest1 100 Breastcancertest2 100 Breastcancertes3 99

semua atribut non-class bertipe continuous, tanpa

penambahan missing value

Breastcancer5test1 100 Breastcancer5test2 100 Breastacncer5test3 99

semua atribut non-class bertipe continuous, dengan penambahan missing value 5% pada

atribut non-class Breastcancer10test1 100

Breastcancer10test2 100 Breastcancer 400

Breastcancer10test3 99

semua atribut non-class bertipe continuous, dengan penambahan missing value 10% pada

atribut non-class Breastcancer_nom1 100

Breastcancer_nom2 100 Breastcancer_nom 400

Breastcancer_nom3 99

semua atribut non-class bertipe diskret tanpa penambahan missing

value

(9)

33

Breastcancer5_nom1 100 Breastcancer5_nom2 100 Breastcancer5_nom3 99

semua atribut non-class bertipe diskret dengan

penambahan missing value 5% pada atribut

non-class Breastcancer10_nom1 100

Breastcancer10_nom2 100 Breastcancer10_nom3 99

semua atribut non-class bertipe diskret dengan

penambahan missing value 10% pada atribut

non-class Iristest1 25

Iristest2 25

semua atribut non class bertipe continuous tanpa

penambahan missing value Iris5test1 25

Iris5test2 25

semua atribut non class bertipe continuous dengan

penambahan missing value 5% pada atribut

non-class Iris10test1 25

Iris 100

Iris10test2 25

semua atribut non class bertipe continuous dengan

penambahan missing value 10% pada atribut

non-class Glass6classtest1 50

Glass6classtest2 14

data glass dengan 6 nilai class tanpa penambahan

missing value Glass6class5test1 50

Glass6class5test2 14

data glass dengan 6 nilai class dengan penambahan

missing value 5% pada atribut non-class Glass6class10test1 50

Glass6class 150

Glass6class10test2 14

data glass dengan 6 nilai class dengan penambahan

missing value 10% pada atribut non-class Glass2classtest1 50

Glass2classtest2 14

data glass dengan 2 nilai class tanpa penambahan

missing value Glass2class5test1 50

Glass2class5test2 14

data glass dengan 2 nilai class dengan penambahan

missing value 5% pada atribut non-class Glass2class10test1 50

Glass2class 150

Glass2class10test2 14

data glass dengan 2 nilai class dengan penambahan

missing value 10% pada atribut non-class

Lenses 19

Lensestest 5 semua atribut bertipe diskert tanpa penambahan

(10)

Lenses5test 5 semua atribut bertipe diskert dengan penambahan missing value 5% pada atribut

non-class Lenses10test 5 semua atribut bertipe

diskert dengan penambahan missing value 10% pada atribut

non-class Zoo2classtest1 10

Zoo2class 80 Zoo2classtest2 11

data zoo dengan 2 nilai class tanpa penambahan

missing value Zoo7classtest1 10

Zoo7class 80 Zoo7classtest2 11

data zoo dengan 7 nilai class tanpa penambahan

missing value

4.3 Skenario Pengujian

Pengujian akurasi klasifikasi dilakukan terhadap 1 data training dan beberapa data testing untuk masing-masing dataset. Pengujian terhadap data training dilakukan untuk mengetahui apakah tool klasifikasi yang telah dibangun menggunakan metode Naive Bayesian Classifier cukup akurat dengan cara menghitung jumlah record pada data training yang diklasifikasikan benar dibagi dengan jumlah keseluruhan record dari data training tersebut. Jika tool yang dibangun cukup akurat maka dilakukan pengujian terhadap data testing untuk mengetahui pengaruh penggunaan beberapa parameter yaitu pengaruh missing value pada atribut non-class data testing suatu dataset, pengaruh pemilihan pemrosesan atribut continuous apakah dihitung menggunakan Gaussian Density Function atau melalui pendiskretisasian menggunakan Entropy-Minimum Description Length, serta pengaruh jumlah class terhadap akurasi pengklasifikasian data. Selain ketiga parameter tersebut, dilakukan juga pengujian untuk mengetahui perilaku Naive Bayesian Classifier untuk atribut numerik dengan range tertentu.

4.4 Pengujian Kebenaran Model yang Dibangun

Pengujian dilakukan pada data training tiap dataset yang digunakan pada klasifikasi ini yaitu pada dataset breastcancer bertipe continuous, breastcancer bertipe diskret, iris, glass dengan jumlah class sebanyak 6 yang bisa

(11)

35

disederhanakan menjadi 2 class, zoo dengan jumlah class sebanyak 7 yang bisa disederhanakan mejadi 2 class, serta pada dataset lenses. Berikut hasil pengujian terhadap dataset tersebut:

Tabel 4.2 Akurasi Model yang Dibangun

Nama data Jumlah record training Akurasi ( % ) Gauss E-MDL Breastcancer 400 96,25 97,50 Breastcancer_nom 400 97,50 Iris 100 95,00 97,00 Glass6class 150 - 97,33 Glass2class 150 91,33 100,00 Zoo2class 80 100,00 100,00 Z007class 80 - 100,00 Lenses 19 100,00

Proses learning sangat berpengaruh terhadap kebenaran klasifikasi yang dihasilkan. Berdasarkan tabel di atas, tidak semua data mampu menghasilkan klasifikasi dengan tingkat akurasi 100%, hal ini disebabkan karena tidak semua data yang ada di sekitar kita mempunyai independencies antar atribut. Selain itu, persebaran data juga mempengaruhi tingkat akurasi yang dihasilkan. Semakin bagus persebaran data training akan menghasilkan tingkat akurasi klasifikasi yang semakin tinggi pula.

4.5 Pengaruh Penggunaan Parameter

Pengujian dilakukan pada data testing untuk mengetahui pengaruh parameter yang digunakan terhadap akurasi pengklasifikasian data. Berikut adalah parameter yang digunakan :

4.5.1 Pemilihan Penghitungan Atribut Continuous

Pengujian terhadap penghitungan atribut continuous dengan Gaussian Density Function dan diskretisasi menggunakan Entropy Minimum Description Length (E-MDL) pada dataset yang mempunyai atribut continuous.

(12)

Table 4.3 Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi

Akurasi ( % ) Waktu ( hh:mm:ss.ms ) Nama data testing

Jumlah record testing

Gauss E-MDL Gauss E-MDL

breastcancertest1 100 95,00 96,00 00:00:00.172 00:00:02.109 breastcancertest2 100 95,00 97,00 00:00:00.172 00:00:02.109 breastcancertest3 99 96,97 97,98 00:00:00.172 00:00:02.109 iristest1 25 100,00 100,00 00:00:00.078 00:00:01.109 iristest2 25 96,00 96,00 00:00:00.078 00:00:01.109 glass6classtest1 50 - 48,00 - 00:01:52.750 glass6classtest2 14 - 78,57 - 00:01:52.672 glass2classtest1 50 90,00 84,00 00:00:00.094 00:00:23.859 glass2classtest2 14 100,00 100,00 00:00:00.094 00:00:23.531 Zoo2classtest1 10 100,00 100,00 00:00:00.265 00:00:00.328 Zoo2classtest2 11 100,00 100,00 00:00:00.281 00:00:00.344 Zoo7classtest1 10 - 80,00 - 00:00:00.437 Zoo7classtest2 11 - 72,73 - 00:00:00.437

Pengaruh Pemilihan Penghitungan Atribut Continuous terhadap Akurasi

0 20 40 60 80 100 breas tcanc ertes t1 breas tcan cert est2 breas tcan certe st3 irist est1 irist est2 glass 6cla sste st1 glass 6cla sste st2 glass 2cla sste st1 glas s2cl asst est2 zoo2 clas stest 1 zoo 2clas stes t2 zoo 7clas stes t1 zoo 7cla sste st2 A k u rasi ( % ) Gauss E-MDL

Gambar 4.1 Grafik Perbandingan Pemilihan Penghitungan Atribut Continuous terhadap Akurasi

Pada gambar 4.1 terlihat bahwa pada data glass6classtest1 dan

glass6classtest2 penghitungan akurasi menggunakan Gaussian Density Function

tidak dapat dilakukan. Pada data testing breastcancertest1, breastcancertest2, dan

breastcancertest3 penghitungan menggunakan Entropy Minimum Description

(13)

37

Length memberikan akurasi lebih tinggi daripada penghitungan menggunakan Gaussian Density Function, namun hal ini berlaku sebaliknya untuk data testing glass2classetest1. Dari semua data testing yang digunakan, dapat disimpulkan bahwa penghitungan atribut continuous menggunakan E-MDL cenderung mempunyai akurasi lebih bagus daripada menggunakan Gaussian Density Function karena tidak semua data continuous terdistribusi secara normal sebagaimana asumsi Gaussian Density Function, namun masing- masing teknik tersebut mempunyai kelebihan dan kekurangan masing-masing.

a. Kelebihan dan kekurangan Gaussian Density Function: 1. Waktu yang dibutuhkan untuk klasifikasi lebih cepat

2. Data hanya bisa diklasifikasikan jika minimal terdapat 2 record tanpa missing value pada atribut continuous untuk tiap nilai class pada data training

3. Jika semua record pada tiap class untuk atribut continuous mempunyai nilai sama maka data tidak bisa diklasifikasikan karena akan menghasilkan standard deviation nol yang akan mengakibatkan pembagian dengan nol pada saat penghitungan probabilitas.

b. Kelebihan dan kekurangan E-MDL:

1. Jumlah data training yang dibutuhkan cenderung lebih sedikit daripada menggunakan Gaussian Density Function karena pada E-MDL data bisa diklasifikasikan jika pada semua atribut continuous-nya minimal terdapat 1 nilai atribut tanpa missing value .

2. Jika semua nilai record pada suatu atribut continuous bernilai sama data masih bisa diklasifikasikan

3. Waktu yang dibutuhkan Entropy Minimum Description Length untuk melakukan klasifikasi lebih lama daripada Gaussian

(14)

Density Function karena harus melakukan rekursif diskretisasi untuk menentukan titik interval diskretisasi.

4. Data hanya bisa diklasifikasikan jika jumlah nilai dari tiap atribut continuous dari data training > 2 karena terdapat operasi log2(jumlah nilai-1) dalam pendiskretisasian data.

4.5.2 Jumlah Class

Pengujian dilakukan terhadap dataset glass karena data ini mempunyai 6 nilai class yang bisa disederhanakan menjadi 2 class dan dataset zoo karena mempunyai 7 nilai class yang bisa disederhanakan menjadi 2 class, sedangkan penghitungan atribut continuous menggunakan Entropy Minimum Description Length karena pada datatest glass6class dab datatest zoo7class penghitungan menggunakan Gaussian Density Function tidak dapat dilakukan.

Pengaruh Jumlah Class terhadap Akurasi

0 20 40 60 80 100 datatest1 glass datatest2 glass datatest1 zoo datatest2 zoo A k u rasi ( % ) 6 class 7 class 2 class

Gambar 4.2 Grafik Pengaruh Jumlah Class Terhadap Akurasi

Dari grafik perubahan class pada dataset glass dan zoo di atas terlihat bahwa semakin banyak nilai class dalam suatu dataset akan mengakibatkan penurunan akurasi. Hal ini disebabkan pada jumlah nilai class yang lebih banyak dalam suatu dataset, probabilitas data tiap class yang dihasilkan lebih kecil daripada probabilitas pada jumlah nilai class yang lebih sedikit

(15)

39

4.5.3 Nilai Numerik pada Atribut dengan Range Tertentu

Pengujian dilakukan terhadap dataset yang mempunyai nilai numerik pada atribut dengan range tertentu, dalam hal ini dataset yang digunakan adalah breastcancer karena semua atribut non-class nya mempunyai nilai antara 1 – 10, penghitungan menggunakan Entropy Minimum Description Length.

Perilaku Naive Bayesian Classifier pada Atribut Numerik dengan Range Tertentu

90 92 94 96 98 100

Data Test1 Data Test2 Data Test3

Ak u ra s i ( % ) Breastcancer continuous Breastcancer diskret

Gambar 4.3 Grafik Perilaku Naive Bayesian Classifier pada Nilai Numerik pada Atribut dengan Range Tertentu

Dari grafik tersebut, terlihat bahwa pada data test1 nilai numerik dengan range tertentu yang diperlakukan sebagai atribut diskret memberikan akurasi lebih tinggi 1% daripada nilai numerik dengan range tertentu yang diperlakukan sebagai atribut continuous, namun pada data test2 dan data test3 keduanya memberikan hasil akurasi yang sama. Sehingga dapat disimpulkan bahwa nilai numerik dengan range tertentu pada atribut bisa diperlakukan sebagai atribut diskret maupun continuous karena setelah melalui pengujian ternyata keduanya memberikan akurasi yang hampir sama.

4.5.4 Missing Value

Pengujian dilakukan terhadap dataset yang telah ditambahkan missing value sebanyak 5% dan 10% terhadap atribut non-class pada data testing. Missing value ditangani dengan cara mengabaikan nilai missing value dari suatu atribut dalam perhitungan.

(16)

Tabel 4.4 Perbandingan Akurasi Data Testing dengan Penambahan Missing Value Akurasi

Tanpa penambahan missing value

Penambahan missing value 5%

Penambahan Missing value 10% Nama Data Testing

Gauss E-MDL Gauss E-MDL Gauss

E-MDL breastcancertest1 95,00 96,00 96,00 97,00 96,00 97,00 breastcancertest2 95,00 97,00 97,00 97,00 97,00 97,00 breastcancertest3 96,97 97,98 95,96 96,97 95,96 96,97 iristest1 100,00 100,00 100,00 100,00 100,00 100,00 iristest2 96,00 96,00 96,00 96,00 92,00 92,00 glass6classtest1 - 48,00 - 48,00 - 48,00 glass6classtest2 - 78,57 - 78,57 - 85,71 glass2classtest1 90,00 84,00 90,00 84,00 90,00 82,00 glass2classtest2 100,00 100,00 100,00 100,00 100,00 100,00 lensestest 100,00 100,00 100,00 breastcancer_nom1 97,00 96,00 97,00 breastcancer_nom2 97,00 98,00 98,00 breastcancer_nom3 97,98 97,98 97,98

Pengaruh Missing Value terhadap Akurasi ( Gauss )

0 20 40 60 80 100 breas tcanc ertes t1 breas tcanc ertes t2 breas tcanc ertes t3 irist est1 irist est2 glas s2cl asst est1 glass 2cla sste st2 A k u rasi ( % ) Tanpa Penambahan Missing Value Penambahan Missing Value 5% pada Atribut Non-class

Penambahan Missing Value 10% pada Atribut Non-class

Gambar 4.4 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Gaussian Density Function

(17)

41

Pengaruh Missing Value terhadap Akurasi ( E-MDL )

0 20 40 60 80 100 breas tcanc erte st1 breas tcanc erte st2 breas tcanc erte st3 iriste st1 iriste st2 glass 6clas stes t1 glass 6clas stes t2 glass 2clas stes t1 glas s2cla sste st2 A k u rasi ( % )

Tanpa Penambahan Missing Value

Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class

Gambar 4.5 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Continuous Menggunakan Entropy Minimum Description Length

Pengaruh Missing Value terhadap Akurasi ( Diskret )

0 20 40 60 80 100 lens este st brea stca ncer _nom 1 brea stca ncer _nom 2 breas tcanc er_ nom 3 Ak u ra s i ( % )

Tanpa Penambahan Missing Value

Penambahan Missing Value 5% pada Atribut Non-class Penambahan Missing Value 10% pada Atribut Non-class

Gambar 4.6 Grafik Pengaruh Penambahan Missing Value terhadap Akurasi pada Data Diskret

Pada ketiga grafik di atas terlihat bahwa pada data testing

breastcancertest2, iristest1, glass6classtest1, glass2classtest2 yang dihitung

menggunakan Entropy Minimum Description Length, dan iristest1,

glass2classetest1, glass2classtest2 yang dihitung menggunakan Gaussian Density Function serta pada data testing breastcancer_nom3 dan lenses, penambahan missing value terhadap atribut non-class pada data testing suatu dataset tidak

mempengaruhi akurasi. Sedangkan pada data testing yang lain perubahan akurasinya hanya sedikit, sehingga dapat disimpulkan bahwa penambahan missing

(18)

mempengaruhi akurasi karena metode Naive Bayesian Classifier tidak mempedulikan berapa besar nilai probabilitas suatu class selama record tersebut diklasifikasikan ke dalam class yang benar. Namun semuanya tetap tergantung pada persebaran data.

Powered by TCPDF (www.tcpdf.org)

Gambar

Tabel 4.1 Spesifikasi Data Pengujian
Tabel 4.2 Akurasi Model yang Dibangun
Table 4.3 Perbandingan Pemilihan Penghitungan Atribut Continuous   terhadap Akurasi
Gambar 4.3 Grafik Perilaku Naive Bayesian Classifier pada Nilai Numerik  pada Atribut dengan Range Tertentu
+3

Referensi

Dokumen terkait

Berbeda tidak nyatanya pertam- bahan bobot badan masing-masing per- lakuan juga disebabkan karena produk fermentasi ini dapat meningkatkan nilai kecernaan karena

Paralon yang mempunyai kekuatan dan keawetan yang lebih baik dibandingkan dengan tali/ijuk menjadi faktor pendukung untuk dapat digunakan sebagai substitusi alat

Peneliti : Program atau kegiatan yang sudah dijalankan selama ini terkait dengan kontribusi Dewan Pendidikan dalam hal pendidikan. Dewan Pendidikan :

Manfaat yang disampaikan oleh Johnson dan Johnson (1991) sejalan dengan hasil penelitian ini bahwa dampak yang dirasakan responden dari dukungan sosial yang diberikan suami

982 Pengadilan campuran (Hybrid Tribunal) sebagai Forum Penyelesaian atas Kejahatan Intemasional dinyatakan dalam suatu perjanjian bilateral yang ditandatangani pada tanggal

dalam fungsi ini jumlah data akan dibagi 4 dan disusun menjadi bagian training dan testing seperti pada ilustrasi Gambar 2.3 Ilustrasi 4-Fold Validation yang kemudian disimpan

untuk mengeser/memindahkan letak tabulasi, klik mouse pada tanda tabulasi, kemudian tekan tombol mouse dan jangan dilepas sambil mengesernya ketempat yang Anda inginkan, lepas

Intervensi yang dilakukan pada diagnosa intoleransi aktivitas berhubungan dengan ketidakseimbangan antara suplai dan kebutuhan oksigen yaitu monitor kelelahan fisik dan