• Tidak ada hasil yang ditemukan

Jurnal EECCIS Vol. 14, No. 1, April 2020 pp p-issn : , e-issn(online):

N/A
N/A
Protected

Academic year: 2021

Membagikan "Jurnal EECCIS Vol. 14, No. 1, April 2020 pp p-issn : , e-issn(online):"

Copied!
6
0
0

Teks penuh

(1)

p-ISSN : 1978-3345, e-ISSN(Online): 2460-8122 pp 21-26

Perbandingan Metode Cost Sensitive pada

Decision Tree dan Naïve Bayes untuk

Klasifikasi Data Multiclass

M. Aldiki Febriantono 1, Sholeh Hadi Pramono 2, Rahmadwati 3 1, 2, 3 Electrical Engineering Departement of Universitas Brawijaya, Malang, Indonesia

Email: aldikifebriantono@gmail.com, sholehpramono@ub.ac.id, rahma@ub.ac.id Abstrak– Knowledge discovery is the method of

extracting information from data in making informed decisions. Seeing as classifiers do have a lot of learning patterns in the data, testing an imbalanced dataset becomes a major classification issue. The cost-sensitive approach on the decision tree C4.5 and nave Bayes is used to solve the rule of misclassification. The glass, lympografi, vehicle, thyroid, and wine datasets were collected from the UCI Repository and included in this analysis. Preprocessing attribute selection with particle swarm optimization was used to process the data collection. Besides, the sensitive decision tree C4.5 and the cost-sensitive naive Bayes method were used in the research. On the glass, lympografi, vehicle, thyroid, and wine datasets, the accuracy of the test results was 72.34 %, 68.22 %, 75.68 %, 93.82 %, and 93.95 %, respectively, using the sensitive decision tree C4.5. While the cost-sensitive naive Bayes method outperforms the others by 32.24 %, 82.61 %, 25.53 %, 97.67 %, and 94.94 % on the dataset, respectively.

Index Terms—Cost sensitive, Decision Tree, Multiclass, Naïve Bayes.

Abstrak– Knowledge discovery merupakan proses untuk mendapatkan informasi dari big data sebagai cara mengambil keputusan secara tepat. Pengujian dataset bersifat imbalanced multiclass menjadi masalah klasifikasi serius karena classifier sulit mempelajari pola pada data. Solusi untuk meminimalkan kesalahan klasifikasi dengan menggunakan metode cost sensitive pada classifier decision tree C4.5 dan naïve bayes. Dataset yang digunakan pada penelitian ini meliputi dataset glass, lympografi, vehicle, thyroid dan wine yang diperoleh dari UCI Repository. Dataset tersebut dilakukan preprocessing seleksi atribut menggunakan particle swarm optimation. Selanjutnya dilakukan pengujian menggunakan metode cost sensitive decision tree C4.5 dan cost sensitive naïve bayes. Diperoleh nilai akurasi hasil pengujian menggunakan metode cost sensitive decision tree C4.5 pada dataset glass, lympografi, vehicle, thyroid dan wine berturut-turut sebesar 72.34%, 68.22%, 75.68%, 93.82% dan 93.95%. Sedangkan metode cost sensitive naïve bayes memiliki performa akurasi pada dataset berturut-turut sebesar 32.24%, 82.61%, 25.53%, 97.67% dan 94.94%.

Kata Kunci—Cost sensitive, Decision Tree, Multiclass, Naïve Bayes.

I. PENDAHULUAN

Knowledge discovery adalah proses penggalian data untuk mencari model dengan tujuan memperoleh pengetahuan sehingga memudahkan untuk mengambil keputusan yang tepat pada proses selanjutnya. Kemampuan untuk membuat keputusan yang tepat

adalah tujuan dari penelitian knowledge discovery, tetapi keputusan yang dibuat belum sepenuhnya tepat. Pada beberapa bidang tertentu, informasi data memiliki dampak yang cukup fatal dalam pengambilan keputusan. Misalnya, kesalahan dalam pengambilan keputusan di bidang kesehatan dapat berdampak pada kehidupan pasien, sementara kesalahan manufaktur memiliki dampak pada hasil produksi.

Model data dapat dipelajari sebagai dasar pengambilan keputusan. Salah satu cara untuk menemukan pola data adalah dengan menggunakan teknik klasifikasi. Teknik ini membuat prediksi berdasarkan nilai dari data masukan untuk dikenali sebagai class prediksi Klasifikasi memiliki dua jenis class prediksi yaitu binary class memiliki dua prediksi class sedangkan multiclass memiliki prediksi class lebih dari dua [3].

Machine learning adalah bagian dari pemprosesan data untuk menemukan pola data secara otomatis. Distribusi data yang tidak seimbang menjadi masalah karena machine secara otomatis lebih berfokus pada mayor class dari pada minor class, karena minor class memiliki data training dan testing yang lebih sedikit dibandingkan mayor class. Padahal, minor class dapat memiliki pengaruh yang sangat penting jika terjadi kesalahan klasifikasi. Sebagai contoh, ketika terjadi kesalahan klasifikasi kanker ganas diklasifikasi sebagai kanker jinak, hal itu karena kanker jinak memiliki jumlah data minor sedangkan kanker ganas memiliki jumlah data mayor. Ini mungkin berdampak negatif pada keselamatan pasien, dibandingkan dengan kasus di mana kanker jinak salah diklasifikasikan sebagai ganas.

Beberapa metode Knowledge discovery yang sering digunakan untuk menyelesaikan masalah data imbalanced yaitu decision tree dan naive bayes. Pemilihan atribut data juga penting untuk mendapatkan performa yang optimal. Optimasi particle swarms merupakan algoritma yang digunakan untuk memilih atribut berdasarkan nilai dari setiap atribut. Berbagai metode telah dikembangkan dalam beberapa studi dengan menggunakan metode cost sensitive classifier, diantaranya cost sensitive classifier menggunakan decision tree C4.5 dan algoritma ansamble pada data imbalanced manufacturing mengklasifikasikan jenis produk yang rusak. Nilai prosentase akurasi dengan menggunakan metode tersebut sebesar 92% [20]. Penelitian lainnya menggunakan metode pendekatan Multi-Decision Tree (CHMDT) untuk memaksimalkan kinerja klasifikasi dengan ukuran atribut hybrid untuk meminimalkan cost-misclaassification. Penelitian dilakukan terhadap dua belas kumpulan data KEEL

(2)

yang imbalanced. Hasil akurasi dari metode tersebut mampu meningkatkan nilai akurasi sebesar 30.98% [21]. Penelitian lainnya menggunakan metode Observable Markov Decision Processes (POMDPs) sebagai model cost sensitive classification C4.5 pada dataset wine dan glass. Metode tersebut mampu menghasilkan nilai akurasi sebesar 99% dan 81% [22].

Berdasarkan penelitian tersebut, decisison tree C4.5 memiliki performa yang cukup baik dalam menanggani data imbalanced. Sehingga penelitian ini menggunakan metode cost sensitive pada decision tree C4.5 dan naïve bayes sebagai perbandingan performa classifier dalam mengambil keputusan secara tepat pada data imbalanced multiclass.

II. DASAR TEORI

A. Knowledge discovery

Knowledge discovery adalah proses mengekstraksi data sehingga menghasilkan pola model informasi dengan tujuan memperoleh pengetahuan untuk membuat keputusan dengan tepat pada proses berikutnya. Model Knowledge discovery meliputi deskripsi, estimasi, prediksi, pengelompokan, dan asosiasi. Klasifikasi adalah proses prediksi class pada atribut data dalam label yang telah ditentukan sebelumnya. Langkah-langkah dalam proses Knowledge discovery meliputi pengumpulan data dari database, pemilihan data, transformasi proses informasi, pemilihan atribut dan model.

B. Particle Swarm Optimation

Pemilihan atribut sebagai faktor krusial untuk mendapatkan data yang berkualitas pada proses Knowledge discovery [17]. Atribut yang tidak relevan dapat dihilangkan sehingga dapat menghasilkan sebuah informasi yang tepat. salah satu algoritma yang digunakan untuk menyeleksi atribut ialah particle swarm optimization (PSO). PSO adalah sebuah teknik optimasi untuk menyeleksi atribut berdasarkan nilai bobot atribut (w).

Atribut yang relevan memiliki nilai bobot 1, atribut yang tidak relevan bernilai 0, sementara atribut yang memiliki relevansi parsial akan memiliki nilai bobot atribut pada rentang 0 < w < 1. Kelebihan PSO adalah mempunyai konsep sederhana, mudah diimplementasikan, serta efisien dalam perhitungan Jika dibandingkan menggunakan teknik seleksi atribut lainnya. ada 2 parameter yang digunakan untuk menentukan bobot atribut yaitu kecepatan dan posisi. Persamaan untuk menetukan kecepatan atribut i pada d dimensi menjadi berikut [10].

1

1

1

2

2

k k id id id id id id

V

   

w V

c rand

 

P

X

 

c

rand

G

X

(1) Persamaan untuk menentukan posisi atribut i pada d dimensi sebagai berikut.

1 1 k k k id id id

X

X

V

 . Keterangan: Vid Xid w 1 2 c c 1,2 rand id P id G C. Algoritma C4.5

Algoritma C4.5 adalah algoritma klasifikasi pohon keputusan yang banyak digunakan karena mempunyai kelebihan utama dari algoritma yang lainnya. Kelebihan algoritma C4.5 dapat membuat pohon keputusan yang mudah diinterprestasikan, mempunyai tingkat akurasi yang dapat diterima, efisien dalam menangani atribut bertipe diskret serta numerik. Algoritma C4.5 adalah pengembangan dari algoritma ID3. Oleh karena itu, algoritma C4.5 mempunyai prinsip dasar kerja yang sama dengan algoritma ID3. Perbedaan utama C4.5 dari ID3 adalah:

1. C4.5 dapat menangani atribut kontinyu dan diskrit. 2. C4.5 dapat menangani training data dengan

missing value.

3. Hasil pohon keputusan C4.5 akan dipangkas setelah menemukan pola model.

4. Pemilihan atribut yang dilakukan dengan menggunakan gain ratio.

Algoritma C4.5 yang merupakan pengembangan dari ID3 menggunakan gain ratio untuk memperbaiki information gain, dengan rumus gain ratio.

( , ) ( , ) inf ( , ) Gain S A GainRatio S A Split o S A

Setelah mendapatkan nilai entropy selanjutnya mencari nilai information gain [13]. Information gain digunakan untuk mengukur efektivitas karakteristik atribut dalam mengklasifikasikan class. Persamaan 4 digunakan untuk menghitung information gain sebagai berikut.

Keterangan:

S = Himpunan kasus A = Atribut

n = Jumlah partisi atribut A

|

S

| = Jumlah kasus pada partisi ke-i

|

S

| = Jumlah kasus dalam S pi = Proporsi dari Si terhadap S

D. Metacost

Metacost merupakan algoritma dari metode cost sensitive learning dengan menggunakan teknik thresholding meta learning untuk meminimalkan cost. Prisip kerja dari metacost adalah menghitung

= Kecepatan individu ke i pada d dimensi = Posisi individu i pada d dimensi = Parameter inertia weight

= Learning rate, nilainya antara 0 dan 1 = Parameter random antara 0 dan 1 = Pbest (local best) individu i pada d dimensi = Gbest (global best) pada d dimensi

(3)

(2)

(3)

model decision tree (Mi). persamaan untuk menghitung

probabilitas sebagai berikut [9]. 1 ( | ) ( , ) 1 i i i P j x

P j x M

Cost dinotasikan sebagai C(i,j), dimana i adalah aktual class tetapi diprediksi menjadi class j sehingga menyebabkan misclassification. Ketika probabilitas pada label class P( j | x, Mi ) > 1, maka akan dilakukan

evaluasi dengan cara melakukan teknik pruning dan relabeling sampai mendapatkan minimum cost. Persamaan untuk mencari nilai minimum cost sebagai berikut [9]. arg min ( ) ( , ) i i j S

P j x C i j E. Naïve Bayes

Naïve bayes merupakan metode klasifikasi yang mengunakan teorema bayes dengan mengansumsikan atribut secara independen atau tidak saling ketergantungan [19]. Teorema bayes bekerja dengan memperbaiki atau mengevaluasi probabilitas awal (prior probability) menjadi probabilitas baru (posterior probability) [15]. Keuntungan penggunaan naive bayes adalah bahwa metode ini hanya membutuhkan jumlah data training yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam proses pengklasifikasian [8]. Berikut ini persamaan umum dari naïve bayes. Keterangan: Ci Aij P(Ci|Aij) P(Ci) P(Aij|Ci) P(Aij)

F. Cost sensitine Naïve bayes

Cost sensitive learning merupakan metode yang digunakan untuk meminimalkan misclassification cost atau kesalahan klasifikasi pada model classifier [14]. Cost function merupakan nilai kesalahan dalam klasifikasi class. Cost function dinotasikan C(i,j) dimana

aktual class i diklasifikasikan menjadi class j. Pada naïve bayes, misclassification cost disebut juga conditional risk R c( j| )x . Persamaan didefinisikan

sebagai berikut [14].

(

j

| )

i ij

( | )

i

R c

x

C xP c x

Dimana P c x( | )i adalah probabilitas posterior pada classifier naïve bayes. Untuk mendapatkan minimal conditional risk menggunakan persamaan berikut [14].

(

j

| )

min

j

(

j

| )

R c

x

R c

x

III. METODE PENELITIAN

Penelitian dilakukan menggunakan laptop HP 2700 series dengan processor Intel Core i57200U @ 2,5 GHz 2.71 GHz, memory 4 GB, harddisk 1 TB, dan memakai sistem operasi Windows 10 64-bit. Pengujian ini juga memakai perangkat lunak Rapidminer 5.3.0 untuk merancang dan menganalisa hasil penghitungan metode. Dataset pengujian berasal dari University of California Irvine machine learning repository yang diperoleh dari situs http://archive.ics.uci.edu/ml. Dataset yang digunakan dalam penelitian ini terdiri atas data terstruktur mengenai multiclass. Deskripsi yang digunakan pada penelitian ini sebagai berikut.

TABELI DATASET PENELITIAN No Dataset Jumlah Instances Jumlah Atribut Jumlah Class Type 1 Glass 214 10 6 real 2 Lympografi 148 18 4 interger 3 Vehicle 946 18 4 Interger 4 Thyroid 215 5 3 numeric 5 Wine 178 13 3 real

Dataset Glass adalah kumpulan data terkait klasifikasi tipe glass atau kaca. Dataset Lympografi adalah Data yang memanfaatkan teknologi x-ray untuk melihat sirkulasi limfatik dan kelenjar getah bening untuk tujuan diagnose. Dataset Vehicle adalah data mengenai klasifikasi jenis kendaraan berdasarkan sudut pandang gambar yang berbeda. Dataset Thyroid adalah kanker kelenjar pada leher. Data ini digunakan untuk memprediksi pasien tiroid berdasarkan class eutiroidisme, hipotiroidisme atau hipertiroidisme. Dataset Wine adalah hasil analisis kimia dari anggur yang ditanam pada wilayah yang sama di Italia tetapi berasal dari tiga kultivar yang berbeda.

Pemprosesan awal dataset dengan menghapus data outlier dan mengisi data missing value. Penghapusan data outlier dilakukan dengan menghapus data-data yang memiliki simpangan cukup jauh, namun ketika dilakukan pengujian, tidak terjadi perubahan akurasi yang signifikan. Pengisian missing value dilakukan dengan mengisikan nilai rata-rata dari atribut tersebut.

Setelah dilakukan pemprosesan awal, kemudian dilakukan seleksi atribut. Seleksi atribut ini dilakukan menggunakan algoritma particle swarm optimization (PSO). Dataset yang telah diseleksi menggunakan PSO kemudian disiapkan untuk proses validasi data, dengan menggunakan metode 10-fold cross validation dimana dataset hasil seleksi ini dibagi menjadi 90% data training dan 10% data testing.

Selanjutnya data training dilakukan pembelajaran untuk memperoleh pola model kemudian pola tersebut dilakukan pengujian menggunakan data testing dengan menggunakan metode cost sensitive decision tree C4.5 dan cost sensitive naïve bayes. Hasil pengujian kemudian dievaluasi menggunakan parameter accuracy, recall, precision, f-measure dan total cost. Kerangka proses klasifikasi ditampilkan pada gambar 1.

( ) ( ) ( | ) ( ) i ij i i ij ij C A C C A A      (8) (9)

= Data dengan class yang belum diketahui = Hipotesis data merupakan suatu class spesifik

= Probabilitas hipotesis Ci berdasar kondisi Aij

(posteriori probabilitas)

= Probabilitas hipotesis Ci (prior probabilitas)

= Probabilitas Aij berdasarkan kondisi pada hipotesis Ci

= Probabilitas Aij

(5)

(6)

(4)

Gambar 1. Flowchart Proses Klasifikasi A. Konsep particle swarm optimation

Particle swarm optimization (PSO) merupakan algoritma yang digunakan pada penelitian ini untuk proses seleksi atribut. Konsep dari algoritma PSO adalah memilih atribut yang relevan berdasarkan nilai bobot (w). Tahapan proses PSO adalah sebagai berikut:

Step 1. Memasukkan dataset.

Step 2. Asumsikan bahwa kecepatan dan posisi awal ditentukansecara random (acak).

Step 3. Hitung kecepatan atribut i pada d dimensi menggunakan persamaan (1).

Step 4. Menghitung posisi atribut i pada d dimensi menggunakan persamaan (2). Step 5. Melakukan evaluasi Pbest dan Gbest untuk

mendapatkan posisi dan kecepatan paling maksimal pada setiap atribut.

Step 6. Evaluasi atribut berdasarkan nilai bobot yang mendekati 0 atau bernilai 0.

Step 7. Atribut yang tidak relevan dapat dihilangkan. B. Konsep cost sensitive decision C4.5

Tahap awal algoritma C4.5 digunakan untuk mendapatkan pola model pohon keputusan sesuai nilai entropy serta gain ratio. Selanjutnya hasil dari pola tadi dilakukan evaluasi untuk mencari minimum cost dengan menggunakan algoritma metacost. Konsep dari metode cost sensitive decision tree C4.5 sebagai berikut: Step 1. Memasukkan dataset.

Step 2. Menghitung nilai entropy total dataset menggunakan persamaan (3).

Step 3. Menghitung nilai entropy serta gain ratio setiap atribut menggunakan persamaan (3) dan (4). Step 4. memilih node akar berdasarkan nilai gain

terbesar.

Step 5. menentukan internal node sampai membuat leaf node sesuai nilai entropy dan gain.

Step 6. Proses berhenti Jika atribut telah digunakan semua.

Step 7. Menghitung nilai probabilitas setiap leaf node menggunakan persamaan (5). Jika probabilitas >

1 maka akan dilakukan evaluasi menggunakan teknik pruning serta relabel.

Step 8. Mencari pola model decision tree dengan minimum cost menggunakan persamaan (6).

C. Konsep Cost sensitive Naïve Bayes

Tahap awal naïve bayes menemukan probabilitas prior selanjutnya mencari class probabilitas kondisional sehingga mendapatkan probabilitas posterior kemudian dilakukan evaluasi menggunakan misclassification costs untuk memperoleh minimum cost menggunakan conditional risk. Konsep dari metode cost sensitive naïve bayes sebagai berikut:

Step 1. Memasukkan dataset.

Step 2. Menghitung jumlah class/label.

Step 3. Menghitung jumlah kasus yang sama dengan class yang sama menggunakan persamaan (7). Step 4. Kalikan semua hasil kriteria pada data. Step 5. Bandingkan hasil class sebagai prediksi class. Step 6. Menghitung conditional risk menggunakan

persamaan (8).

Step 7. Mencari pola model naïve bayes dengan minimum cost menggunakan persamaan (9). D. Metode Pengujian

Mengukur performa sistem klasifikasi merupakan hal yang penting dalam data mining. Hasil dari performa sistem klasifikasi membuktikan seberapa akurat sistem tersebut dalam mengklasifikasikan data. Confusion matrix merupakan salah satu cara yang digunakan untuk mengukur performa metode klasifikasi. Konsep dari confusion matrix yaitu mengandung sebuah informasi mengenai hasil dari pengklasifikasian. Terdapat empat informasi yaitu true positif (TP), true negative (TN), false positif (FP) dan false negative (FN). Confusion matrix ditunjukkan pada Tabel 2 sebagai berikut [16]:

TABELII CONFUSION MATRIX Predicted Class Actual Class 1 2 3 1 N(1,1) N(1,2) N(1,3) 2 N(2,1) N(2,2) N(2,3) 3 N(3,1) N(3,2) N(3,3)

Cost matrix digunakan untuk mengukur nilai kesalahan pada saat klasifikasi. Cost matrix didefinisikan sebagai C (i|j) dimana i adalah class aktual dan j adalah class prediksi. Cost kesalahan prediksi pada multiclass ditampilkan sebagai berikut C(2,1), C(3,1), C(1,2), C(3,2) ,C(1,3) , C(2,3) ketika cost klasifikasi benar ditampilkan sebagai berikut C(1,1), C(2,2), C(3,3) nilai tersebut dapat dianggap bernilai 0. Table 3 merupakan tampilan dari cost matrix sebagai berikut [17]. TABELIII COST MATRIX Predicted Class Actual Class 1 2 3 1 C(1,1) C(1,2) C(1,3) 2 C(2,1) C(2,2) C(2,3) 3 C(3,1) C(3,2) C(3,3)

Data Preprocessing Seleksi

Atribut PSO

Data Uji Data Testing

Data Training

Cost sensitive decision tree C4.5 Cost sensitive naïve bayes

Evaluation Perform

(5)

Accuracy = (TP + TN) / Ntotal Specificity = TN/(TN + FP) Recall = TP / (TP + FN)

F-Measure = 2 x ((Recall x Specificity)/ ((Recall + Specificity))

Total Cost = Ntotal [(CFN +FN)*(CFP + FP)]

II. HASIL DAN PEMBAHASAN

A. Persiapan Data

Proses persiapan data, diawali dengan eliminasi data outlier serta pengisian data atribut yang kosong dengan data rata-rata atribut dari dataset. Data proses awal kemudian ditransformasi menggunakan metode normalisasi min-max untuk dilakukan seleksi atribut menggunakan algoritma PSO. Data akan di seleksi kemudian dilakukan proses training serta testing. Hasil pengujian ditampilkan seperti Tabel 4 berikut:

TABELIV HASIL PENGUJIAN PSO

Dataset training

Decision Tree Naïve Bayes

DT DT + PSO NB NB+ PSO Glass 68.22% 68.22% 33.18% 29.44% Lympografi 75.68% 79.71% 74.32% 80.43% Vehicle 71.01% 72.34% 42.02% 40.96% Thyroid 93.95% 93.95% 96.74% 97.67% Wine 93.82% 94.05% 98.31% 94.94% Berdasarkan Tabel 4 pada metode decision tree, algoritma PSO mampu meningkatkan nilai accuracy pada 3 dataset yaitu lympografi, vehicle, dan wine masing-masing sebesar 79.71%, 72.34% serta 94.05%. Sedangkan hasil pengujian menggunakan metode naïve bayes dengan algoritma PSO mampu meningkatkan nilai accuracy pada 2 dataset yaitu lympografi serta thyroid masing-masing sebesar 80.43%, 97.67%. Hasil tersebut menunjukan bahwa performa accuracy pada decision tree dan naive bayes dipengaruhi oleh atribut data yang diseleksi oleh PSO.

B. Pengujian dan Analisis

Penelitian ini dilakukan dengan 2 metode pengujian, yaitu menggunakan metode Cost Sensitive Decision Tree C4.5 (csDT) serta metode Cost Sensitive Naive Bayes (csNB). Percobaan pertama, pengujian pada dataset glass, lympografi, vehicle, thyroid, dan wine memakai metode csDT C4.5. hasil dari pengujian ditampilkan sebagai berikut:

TABELV HASIL PENGUJIAN CSDTC5.0

Dataset Accuracy Recall Specificity F-measure Glass 76.17% 76.17% 95.23% 84.64% Lympografi 83.33% 83.33% 94.44% 88.54% Vehicle 75.27% 75.27% 91.76% 82.70% Thyroid 95.81% 95.81% 97.91% 96.85% Wine 95.83% 95.83% 94.44% 96.86% 0.00% 20.00% 40.00% 60.00% 80.00% 100.00%

Accuracy Recall Specificity F-Measure

Gambar 5. Diagram Hasil Pengujian csDT

Berdasarkan Tabel 5 hasil pengujian kelima dataset glass, lympografi, vehicle, thyroid dan wine memiliki performa accuracy berturut-turut, 70.09%, 83.33%, 76.86%, 93.49%, dan 97.62%. Pada Gambar 5 dataset wine dan thyroid menunjukan performa yang baik dengan menggunakan metode csDT C4.5 Sedangkan pada dataset glass dan vehicle tidak ada peningkatan performa dibandingkan dengan dataset lainnya karena hasil tersebut dipengaruhi oleh jumlah label class. Pada percobaan kedua pengujian dilakukan dengan menggunakan metode csNB pada lima dataset. Hasil dari pengujian ditampilkan sebagai berikut:

TABELVI HASIL PENGUJIAN CSNB

Dataset Accuracy Recall Specificity F-measure

Glass 32.24% 32.24% 86.45% 46.97%

Lympografi 82.61% 82.61% 94.20% 88.03%

Vehicle 25.53% 25.53% 75.18% 38.12%

Thyroid 97.67% 97.67% 98.84% 98.25%

Wine 94.94% 94.94% 97.47% 96.19%

Gambar 6. Diagram Hasil Pengujian csNB

Tabel 6 merupakan hasil pengujian dataset glass, lympografi, vehicle, thyroid dan wine memiliki nilai accuracy berturut-turut sebagai berikut 32.24%, 82.61%, 25.53%, 97.67%, 94.94%. Gambar 6 menunjukan dataset thyroid memiliki nilai recall paling besar yaitu 97.67%. Dataset thyroid memiliki nilai specificity paling besar yaitu 98.84%. Dataset thyroid memiliki nilai F-measure paling besar yaitu 96.19%.

(6)

TABELVII HASIL PERHITUNGAN COST

Decision Tree Naïve Bayes Dataset DT DT + PSO csDT NB NB + PSO csNB Glass 9248 9248 8192 40898 40898 42050 Lympografi 2592 1568 1058 2888 1458 1152 vehicle 23762 21632 15138 95048 95048 156800 Thyroid 338 338 392 98 50 50 Wine 242 200 32 18 18 162

Tabel 7 merupakan hasil perhitungan cost dari classifier. Cost adalah nilai kesalahan dari klasifikasi, jadi semakin besar nilai cost maka classifier memiliki performa yang buruk. Hasil pengujian pada decision tree diperoleh dengan menggunakan csDT mampu meminimalkan cost pada semua dataset. Sedangkan pengujian menggunakan csNB hanya mampu meminimalkan cost pada dataset lympografi.

V. KESIMPULAN

Berdasarkan hasil pengujian dan evaluasi dapat disimpulkan bahwa pengujian dengan menggunakan metode cost sensitive decision tree C4.5 memiliki nilai accuracy yang lebih baik dari pada menggunakan metode cost sensitive naïve bayes pada dataset glass, lympografi, vehicle dan wine berturut-turut 70.09%, 83.33%, 76.86% dan 97.62%. Sedangkan dengan menggunakan metode cost sensitive naïve bayes memiliki nilai accuracy yang lebih baik dari pada cost sensitive decision tree C4.5 pada dataset thyroid sebesar 97.67%.

DAFTAR PUSTAKA

[1] Larose D, T, “Discovering knowledge in data : an introduction to data mining.” Jhon Wiley & Sons Inc., 2005. [2] Patel B.N, S.G. Prajapati and K.I. Lakhtaria. ”Efficient

Classification of Data Using Decision Tree.” Bonfring

international journal of data mining, Vol. 2, No. 1., 2012.

[3] Ali H, M. N. M. Salleh, R. Saedudin, and K. Hussain. “Imbalance class problems in data mining: a review.”

Indones. J. Electr. Eng. Comput. Sci., vol. 14, no. 3., 2019.

pp. 1560–1571.

[4] Bernard S, C. Chatelain and S. Adam. ”The Multiclass ROC Front method for cost-sensitive classification,” Pattern

Recognition, vol. 52., 2015: pp. 46–60.

[5] Wang S. and X. Yao, “Multiclass Imbalance Problems : Analysis and Potential Solutions,” IEEE Trans. Syst. Man.

Cybern., vol. 42, no. 4., 2012: pp. 1119–1130.

[6] Jauhari F, A. A. Supianto. “Building student’s performance decision tree classifier using boosting algorithm.” Indones. J.

Electr. Eng. Comput. Sci., vol. 14, no. 3., 2019: pp. 1298–

1304.

[7] Patel B.R, K.K. Rana. ”A Survey on Decision Tree Algorithm For Classification.” International Journal of

Engineering Development and Research, Vol. 2, No. 1.,

2014.

[8] Faisal KM, Mofizur RC. D Enhanced classification accuracy on naïve bayes data mining models. International journal of

computer applications. 2011;28(3):9-16

[9] Domingos P.” MetaCost: A general method for making classifiers cost-sensitive.” In Proceedings of the Fifth

International Conference on Knowledge Discovery and Data Mining. ACM Press., 1999: pp. 155-164.

[10] Wei S, Y.K. Ching, C.S. Chieh and L.Z. Jung. ”Particle Swarm Optimization for Parameter Determination and Feature Selection of Support Vector Machines.”

ScienceDirect: Expert System With Aplications., 2008:

pp.1817- 1824.

[11] Zhang S., C. Zhang and Q. Yang. ”Data preparation for data mining.” Applied Artificial Intelligence an International

Journal, Vol. 17., 2010: pp. 5-6.

[12] Thomas M.C. and Joy A. T.“Elements of imformation Theory,” A John Wiley & Sons, INC., Publication, 2006, pp. 13-14.

[13] Xu Z., Min F., ”Cost-sensitive C4.5 with post-pruning and

competition.” Artificial Intelligence, 2012.

[14] Chai, X., Deng, L., Yang., Q., et al. “Test Cost Sensitive Naïve Bayes Classification.”In: Proceedings of the 4th IEEE

International Conference on Data Mining. 2004:pp.51-58.

[15] Friedman N.,Geiger., D and Goldezmidt M. Bayesian Network Classifier. Machine Learning. 1997. pp:131-163. [16] Ramaswati M.,” Validating Predictive Performance of

Classifier Models for Multiclass Problem in Educational Data Mining”, International Journal of Computer Science

Issue,Vol. 11, Issue.5., 2014.

[17] Xue, B., Zhang, M., & Browne, W. N.” Particle Swarm

Optimization for Feature Selection in Classification: A Multi-Objective Approach.” IEEE Transactions on Cybernetics,

43(6).,2013:pp. 1656–1671.

[18] Baykara A. “Impact of Evaluation Methods on Decision Tree Accuracy.” M.Sc. thesis., , 2015: pp. 72.

[19] Wang S. and X. Yao, “Multiclass Imbalance Problems :

Analysis and Potential Solutions,” IEEE Trans. Syst. Man.

Cybern., vol. 42, no. 4., 2012: pp. 1119–1130.

[20] Wei S, Y.K. Ching, C.S. Chieh and L.Z. Jung. ”Particle

Swarm Optimization for Parameter Determination and Feature Selection of Support Vector Machines.” ScienceDirect: Expert System With Aplications., 2008:

pp.1817- 1824.

[21] Xue, B., Zhang, M., & Browne, W. N.” Particle Swarm

Optimization for Feature Selection in Classification: A MultiObjective Approach.” IEEE Transactions on Cybernetics, 43(6).,2013:pp. 1656–1671.

[22] Zhang S., C. Zhang and Q. Yang. ”Data preparation for

data mining.” Applied Artificial Intelligence an International Journal, Vol. 17., 2010: pp. 5-6.

Gambar

Gambar 1. Flowchart Proses Klasifikasi
Gambar 5. Diagram Hasil Pengujian csDT
TABEL VII  H ASIL  P ERHITUNGAN  C OST

Referensi

Dokumen terkait

Pajak penghasilan terkait pos-pos yang tidak akan direklasifikasi ke laba rugi Penyesuaian akibat penjabaran laporan keuangan dalam mata uang asing PENDAPATAN (BEBAN) NON

Keputusan Menteri Dalam Negeri Nomor 29 Tahun 2002 tentang Pedoman Pengurusan, Pertanggungjawaban dan Pengawasan Keuangan Daerah Serta Tata Cara Penyusunan

Pembuatan sirup glukosa melalui proses hidrolisis enzimatis melalui tahap likuifikasi dan sakarifikasi menggunakan bahan baku tepung ubi jalar ungu mampu menghasilkan sirup

Kerjasama antara Tiongkok dan Pakistan dalam pembangunan ekonomi dan sosial telah membuat kemajuan yang pesat, dimana dalam 5 (lima) tahun terakhir, perdagangan Tiongkok dan

Tujuan penelitian ini adalah untuk mengetahui Pengaruh Investasi, Pengeluaran Pemerintah, Tenaga Kerja Terhadap Produk Domestik Regional Bruto Dan Tingkat

Komunikasi sebagai suatu proses artinya bahwa komunikasi merupakan serangkaian tindakan atau peristiwa yang terjadi secara berurutan (ada tahapan atau sekuensi) serta berkaitan satu

mengungkapkan bahwa komunikasi yang bergaya demokratis dapat mendorong orang-orang di dalam organisasi tersebut untuk mengembangkan hubungan secara lebih peduli, terbuka,

Sesuai dengan kebutuhan era globalisasi yang akan memberikan pengaruh pada industri di Indonesia, dapat dilihat bahwa sistem yang sekarang digunakan tidak dapat memenuhi kebutuhan