• Tidak ada hasil yang ditemukan

Pemilihan Fitur Menggunakan Algoritma Chi-Square Dan Particle Swarm Optimization (PSO) Untuk Meningkatkan Kinerja Deep Neural Network Pada Deteksi Penyakit Diabetes

N/A
N/A
Protected

Academic year: 2024

Membagikan "Pemilihan Fitur Menggunakan Algoritma Chi-Square Dan Particle Swarm Optimization (PSO) Untuk Meningkatkan Kinerja Deep Neural Network Pada Deteksi Penyakit Diabetes"

Copied!
9
0
0

Teks penuh

(1)

Pemilihan Fitur Menggunakan Algoritma Chi-Square Dan Particle Swarm Optimization (PSO) Untuk Meningkatkan Kinerja Deep

Neural Network Pada Deteksi Penyakit Diabetes

Wahyu Budi Santosa*, Abdul Syukur, Purwanto

Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro, Semarang, Indonesia Email: 1,*wahyubudisantosa@gmail.com, 2abdul_s@dosen.dinus.ac.id, 3purwanto@dsn.dinus.ac.id

Email Penulis Korespondensi: wahyubudisantosa@gmail.com

Abstrak−Penyakit diabetes adalah penyakit kronis yang disebabkan oleh gangguan metabolisme glukosa dalam tubuh. Pada diabetes tipe 1, sistem kekebalan tubuh menyerang dan menghancurkan sel-sel yang menghasilkan insulin di pankreas, sehingga tubuh tidak mampu memproduksi insulin dengan cukup. Pada diabetes tipe 2, tubuh masih mampu memproduksi insulin, namun tidak mampu menggunakannya dengan efektif. Insulin ini merupakan hormon yang berguna untuk mengontrol glukosa dalam sel darah. Ketika glukosa dalam darah tidak terkontrol makaa dapat menyebabkan sejumlah masalah, seperti penjakit jantung, stroke, kebutaan, kerusakan syaraf dan lain sebagainya. Maka penelitian pada penelitian ini merumusan peningkatkan akurasi, dalam proses deteksi penyakit diabetes dengan menggunakan metode Deep Neural Network (DNN), yang ditingkatkan dengan metode chi-square dan PSO melalui proses seleksi atribut. hasil dari pengujian dataset PIMA dengan DNN mendapatkan nilai akurasi sebanyak 76.62% dengan nilai AUC sebesar 0.772. Sedangakan pengujian dengan menggunakan metode DNN seleksi atribut metode Chi-square dan dioptimasi dengan PSO didapatkan nilai akurasi sebanyak 85.71 % dengan nilai AUC sebanyak 0.818. Maka dapat disimpulkan dari pengujian data penyakit diabetes menggunakan metode Deep Neural network yang ditambahkan Chi-square sebagai seleksi atribut dan dioptimasi menggunakan PSO lebih baik jika dibandingkan dengan metode DNN

Kata Kunci: Diabetes; Chi-Square; PSO; Deep Neural Network

Abstract−Diabetes is a chronic disease caused by impaired glucose metabolism in the body. In type 1 diabetes, the body's immune system attacks and destroys the insulin-producing cells in the pancreas, so that the body is unable to produce sufficient amounts of insulin. In type 2 diabetes, the body is still able to produce insulin, but is unable to use it effectively. Insulin is a hormone that is useful for controlling glucose in blood cells. If glucose in the blood is not controlled it can cause a number of problems, such as heart disease, stroke, blindness, nerve damage and so on. So the research in this study formulated an increase in accuracy in the diabetes detection process using the Deep Neural Network (DNN) method which was enhanced with the chi- square and PSO methods through the attribute selection process. The results of testing the PIMA dataset with DNN obtained an accuracy value of 76.62% with an AUC value of 0.772. Meanwhile, testing using the DNN method for attribute selection using the Chi-square method and optimization with PSO obtained an accuracy value of 85.71% with an AUC value of 0.818.

So it can be concluded from testing diabetes data using the Deep Neural Network method which adds Chi-square as a selection attribute and is optimized using PSO which is better when compared to the DNN method.

Keywords: Diabetes; Chi-Square; PSO; Deep Neural Network

1. PENDAHULUAN

Penyakit diabetes adalah penyakit kronis yang disebabkan oleh gangguan metabolisme glukosa dalam tubuh. Pada diabetes tipe 1, sistem kekebalan tubuh menyerang dan menghancurkan sel-sel yang menghasilkan insulin di pankreas, sehingga tubuh tidak mampu memproduksi insulin dengan cukup[1]. Pada diabetes tipe 2, tubuh masih mampu memproduksi insulin, namun tidak mampu menggunakannya dengan efektif. Insulin ini merupakan hormon yang berguna untuk mengontrol glukosa dalam sel darah. Ketika glukosa dalam darah tidak terkontrol makaa dapat menyebabkan sejumlah masalah, seperti penjakit jantung, stroke, kebutaan, kerusakan syaraf dan lain sebagainya[2]

Berdasarkan data yang disediakan oleh International Diabetes Federation IDF, diabetes merupakan salah satu penyebab kematian yang signifikan di seluruh dunia, yang merupakan merupakan penyebab kematian ke-7 di dunia, dengan jumlah kematian sebesar 4.2 juta orang pada tahun 2019[3]. dan merupakan penyebab kematian ke-5 di Asia, dengan jumlah kematian sebesar 2.2 juta orang pada tahun 2019. Di wilayah Asia Tenggara Indonesia menempati peringkat ke-3, dengan prevalensi sebesar 11,3%. Dengan jumlah penderita kuranglebih 10 juta. Dan Indonesia berada di peringkat ke-7 diantara 10 negera dengan jumlah penderita tertinggi di dunia[4]. Namun prevalensi diabetes militus menurut hasil pemeriksaan gula darah meningkat 6.9% pada tanung 2013 menjadi 8.5%

pada tahun 2018. angka ini menunjukan bahwa baru sekitar 25% penderita diabetes yang mengetahui bahwa dirinya menderita diabetes[5].

Penyakit diabetes juga menyebabkan komplikasi jangka panjang termasuk perkembangan progresif dari komplikasi spesifik dari DR, nefropati yang bisa menyebabkan terjadinya gagal ginjal, dan atau neuropati dengan risiko ulkus pada kaki, amputasi, sendi Charcot, dan fitur disfungsi otonom, termasuk disfungsi seksual yang bisa terjadi, yang dikenal sebagai komplikasi mikro-vaskular, Orang dengan diabetes juga sangat peningkatan risiko kardiovaskular, vaskular perifer, dan penyakit serebros-vaskular[6] . Selain itu, banyak orang yang hidup dengan penyakit ini tidak menyadarinya akan kondisi kesehatan mereka cukup dini[7]. Banyak Komplikasi terjadi jika diabetes tetap tidak diobati dan tidak teridentifikasi. Untuk mengurangi jumlah kematian yang disebabkan oleh

(2)

diabetes, pengembangan metode dan teknik untuk diagnosis diabetes sangat penting, karena sejumlah besar kematian di pasien diabetes disebabkan oleh diagnosis yang terlambat [8].

Diabetes prediction model using data mining techniques yang ditulis oleh Rashi Rastogi, Mamta Bansal Peneletian ini membahas mengenai diabetes sudah banyak di lakukan di antaranya penelitian berjudul Diabetes prediction model using data mining technique yang di lakukan oleh Rashi Rastogi, Mamta Bansal [9].

mengkomparasi empat algoritma klasifikasi Random Forest, Support Vector Machine (SVM), Logistic Regression, dan Naive Bayes pada deteksi diabetes, dari keemat algoritma tersebut, algoritma Logistic Regression, mendapatkan nilai akurasi tertinggi di angka 82,46%.[10] Dengan menggunakan dataset dari Pima Indians Diabetes Dataset (PIDD) diperoleh dari repositori Kaggle, pada penelitian ini menyaranknak untuk peneliti selanjutnya mencoba menggunakan algoritma lainnya, untuk meningkatkan akurasi pada proses deteksi diabetes[11].

Maka pada penelian ini, mengajukan metode jaringan saraf tiruan untuk meningkatkan deteksi pada penyakit diabetes, pada model algoritma klasifikasi jaringan saraf tiruan memiiki tingkat akurasi yang tinggi dan sayangnya algoritma jaringan saraf tiruan ini memakan waktu komputasi yang cukup lama, maka pada penelitian ini untuk mengatasi permasalahan waktu komputasi, peneliti menambahkan metode seleksi fitur Chi-Square yang di optimasi menggunakan PSO[12]. Chi-square dipilih dikarenakan metode ini dianggap sebagai yang paling efektif dalam pendekatan seleksi fitur dan dapat digunakan untuk menguji hipotesis pada dataset yang tidak seimbang. dan PSO dapat digunakan untuk mencari nilai optimal dari fungsi Chi-square dengan mengoptimalkan distribusi fitur dalam data[13]. dan seleksi fitur ini juga dapat membantu meningkatkan akurasi model[14].

Untuk metode klasifikasi pada penelitian ini mengajuakan Deep Neural Network, yang merupakan jenis model pembelajaran mesin yang menggunakan lapisan-lapisan neuron yang terkoneksi satu sama lain untuk membuat prediksi dan memecahkan masalah [15].

DNN sering digunalan pada pembelajaran mesin, seperti pengenalan wajah, pengenalan suara, dan pemrosesan bahasa natural[16]. Namun, DNN juga dapat digunakan untuk memecahkan masalah lain, seperti pembelajaran pola dan klasifikasi data[17]. Pengklasifikasi DNN adalah replikasi struktur jaringan kompleks dari Jaringan Saraf Tiruan ANN dengan lapisan tersembunyi 'n' untuk mengirim data input dari output sebelumnya Lapisan [18]. Pada saat implementasi DNN umumnya yang sering menjadi kendala adalah DNN membutuhkan waktu yang cukup lama untuk melakukan pelatihan dan pemrosesan data[19] . Maka dari itu seperti yang sudah dipaparkan diatas pada penelitian ini mengajukan Chi-square dan PSO unt model seleksi fitur, dengan fitur yang lebih ramping maka akan membantu meningkatkan akurasi dan memdapatkan waktu komputasi yang lebih baik[20].

2. METODOLOGI PENELITIAN

2.1 Metode yang Diusulkan

Chi-square adalah metode untuk mewujudkan pemilihan fitur filter dalam penambangan data; Ini memberikan hasil yang kompetitif terhadap metode lain [19]. Chi-square sering digunakan dalam masalah klasifikasi untuk menentukan fitur-fitur yang paling penting dalam data. Contohnya, chi-square dapat digunakan untuk menentukan apakah ada hubungan antara fitur dan kelas dalam data, atau untuk menentukan apakah ada perbedaan signifikan antara distribusi fitur dalam kelas yang berbeda.

Particle Swarm Optimization (PSO) adalah teknik yang relatif baru yang telah terbukti berkinerja baik pada banyak masalah pengoptimalan. Bukti juga disediakan untuk mendukung spesifikasi teoritis yang diproyeksikan oleh model yang berbeda, menggunakan kegiatan dasar hibrida untuk memeriksa karakteristik tertentu.

DNN adalah singkatan dari Deep Neural Network, yang merupakan jenis model pembelajaran mesin yang menggunakan lapisan-lapisan neuron yang terkoneksi satu sama lain untuk membuat prediksi dan memecahkan masalah.

Dalam melakukan penelitian terhadap penyakit diabetes, diperlukan sebuah metode yang diusulkan untuk selanjutnya digunakan dalam melakukan diagnose penyakit diabetes. Metode klasifikasi yang akan digunakan dalam penelitian kali ini adalah Deep Neural Network (DNN). dengan dibantu optimasi seleksi fitur menggunakan Chi-Square dan Particle Swarm Optimization (CS-PSO).

Chi-square memiliki kemampuan untuk menguji hipotesis tentang bagaimana fitur terdistribusi dalam data.

Chi-square sering digunakan dalam masalah klasifikasi untuk menentukan fitur-fitur yang paling penting dalam data. Sedangkan PSO metode optimisasi yang dapat digunakan untuk mencari nilai optimal dari suatu fungsi obyektif. sehingga kombinasi CS-PSO memanfaatkan kemampuan chi-square untuk menguji hipotesis tentang distribusi fitur dalam data dan kemampuan PSO untuk mencari nilai optimal dari fungsi obyektif. Barulah setelah didapatkan dataset dengan fitur-fitur penting yang sudah dioptimakan maka tahap selanjtnya masuk ke proses permodelan, mengunakan Deep Neural Network (DNN).

Pada penelitian ini mencoba membandingkan proses deteksi penyakit diabetes menggunakan klasifikasi Deep Neural Network dengan seleksi atribut Chi-Square dan dibandingkan dengan klasifikasi Deep Neural Network dengan seleksi atribut Chi-Square yang di optimalkan menggunakan PSO (SC-PSO). Berikut ini bentuk gambaran metode yang di usulkan :

(3)

Gambar 1. Metode yang diusulkan Dari gambar 1 kita dapat menjelaskan langkah – langkahnya sebagai berikut:

1. Dataset diabetes PIMA India Diabetes Dataset, database dari Kaggle.

2. Ada dua langkah dalam tahapan ini yang pertma yaitu tanpa menggunakan proses seleksi atribut menggunakan chi-square dilanjutkan dengan dioptimakan menggunakan PSO.

3. Proses klasifikasi menggunakan metode DNN 4. Hasil nilai Akurasi dan AUC yang didapat.

2.2 Persiapan Data

Dalam proses pengumpulan data yang ada saat ini dibagi menjadi dua kategori data yaitu sumber data primer dan sumber data sekunder. Sumber data primer merupakan sumber yang langsung memberikan data yang dibutuhkan untuk penelitian atau analisis. Sumber data primer bisa berupa individu, kelompok, organisasi, atau institusi yang memiliki informasi yang diperlukan. sedangkan sumber data sekunder adalah sumber yang tidak langsung memberikan data yang dibutuhkan, tetapi memperoleh data tersebut dari sumber-sumber lain yang telah mengumpulkan data tersebut. Sumber data sekunder bisa berupa dokumen-dokumen, publikasi-publikasi, atau rekaman-rekaman yang memuat informasi yang diperlukan. Sumber data sekunder sangat berguna karena dapat menyediakan informasi yang cukup luas dengan waktu dan biaya yang lebih efisien dibandingkan dengan pengumpulan data primer. Untuk keperluan dataset pada penelitian ini akan menggunakan data sekunder yaiku data Pima Indians Diabetes Database yang diperoleh dari Kaggle. yang akan digunakan sebagai data latih dan data uji untuk menentukan terjadinya pernyakit diabetes mellitus.

2.3 Eksperimen dan Pengujian Metode

Dalam melakukan penelitian ini menggunakan penelitian berupa experiment. Dimana penyeledikikan yang melibatkan hubungan kasual dengan tes metode klasifikasi dikendalikan oleh sang peneliti itu sendiri. Berikut langkah-langkah eksperiment metode yang dilakukan dalam penelitian ini:

1. Siapkan dataset

2. Inisialisasi partikel PSO: Langkah selanjutnya adalah menginisialisasi partikel PSO yang akan digunakan untuk mencari nilai optimal dari fungsi chi-square. Partikel PSO harus diinisialisasi dengan kecepatan dan posisi awal yang sesuai.

(4)

3. Menentukan ambang batas (threshold) yang telah diinginkan. Ini memungkinkan atribut yang memiliki berbobot sama dengan ambang batas. Jika atribut memiliki bobot lebih besar maka akan di pertahankan serta membuang atribut yang dibawah batas.

4. Masukan nilai bobot yang didapat pada algoritma DNN.

5. Hitung hasil klasifikasi algoritma DNN menggunakan Confusion Matrix kemudian diukur hasil evaluasi.

6. Mencatat hasil Akurasi dan AUC yang didapat.

2.4 Evaluasi Hasil

Model yang di usulkan pada peneleitian tentang diagnose atau prediksi penyakit diabetes adalah dengan menerapkan algoritma Deep Neural network (DNN) dan seleksi atribut menggunakan Chi-Square yang di optimalkan menggunakan PSO (CS-PSO). Untuk melihat capaian algoritma dalam nilai akurasi dan AUC yang diharapkan, yaitu dengan mengharapkan nilai akurasi dan AUC tertinggi dalam diagnose penyakit diabetes menggunakan seleksi atribut CS-PSO. Maka penelitian ini akan membandingkan hasil yang didapatkan dengan dan tanpa menggunakan metode CS-PSO. Hal ini bertujauan supaya dalam penelitian ini bisa mengetahui sejauh mana pengaruh metode Korelasi Pearson dalam seleksi atribut yang di terapkan pada metode DNN dalam diagnose penyakit diabetes. Serta untuk menentukan model diagnose atau prediksi penyakit diabetes. Sehingga diharapkan dengan didapatkanya model prediksi terbaik dalam penelitian ini dapat membantu dalam pemecahan masalah tersebut.

3. HASIL DAN PEMBAHASAN

3.1 Pengumpulan Data

Dataset yang akan digunakan pada penelitian ini merupatan data publik yang dipulikasikan oleh Kaggle yaitu PIMA (Pima Indians Diabetes) India Diabetes dataset. Dataset ini berisi informasi mengenai kondisi diabetes pada masyarakat Pima India. Dataset ini terdiri dari 9 fitur (variabel) yang mewakili informasi yang diperlukan untuk memprediksi apakah seseorang tersebut menderita diabetes atau tidak. Berikut ini adalah sembilan fitur yang ada dalam dataset PIMA India Diabetes diantaranya Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction, Age dan Outcome sebagai lebel.

Tabel 1. Dataset pasien Penyakit diabetes

No Pregnancies Glucose Blood Pressure

Skin

Thickness Insulin BMI

Diabetes Pedigree Function

Age Out- come

1 6 148 72 35 0 33,60 0,63 50 1

2 1 85 66 29 0 26,60 0,35 31 0

3 8 183 64 0 0 23,30 0,67 32 1

…... …... …... …... …... …... …... …... …... …...

766 5 121 72 23 112 26,20 0,25 30 0

767 1 126 60 0 0 30,10 0,35 47 1

768 1 93 70 31 0 30,40 0,32 23 0

Dari tabel 1 terdapat 768 baris data tersebut kita akan membagi menjadi 2 bagian terdiri dari data training sebanyak 615 baris data. Sedangkan sebanyak 153 baris data yang nantinya akan dijadikan sebagai data uji.

3.2 Pemilihan Attribut dengan Chi-Square dan optimasi atribut dengan PSO

Sebelum dataset PIMA Indian Diabetes Dataset ini digunakan pada proses klasifikasi menggunaka DNN. Dataset dengan jumlah atribut sebanyak 8 tersebut akan dikakukan seleksi fitur, proses ini terlebih dahulu, proses ini bertujuan menentuan pemilihan atribut yang relevan yang nantinya akan dipakai pada proses perhitungan metode DNN. Proses pemilihan atribut tersebut dilakukuan menggunakan metode Chi-square. Berikut langkah pengerjaan pemilihan attriut relevan dengan metode Chi-Square.

3.2.1 Menghitung hubungan antar variabel dengan Chi-square

a. Langkah pertama dilakukan pengelompokan value aitribut terhadap label seperti tabel 2 dibawah ini:

Tabel 2. Pengelompokan value aitribut pregnancies terhadap label Output Pregnancies Output (Label)

Total Non Diabetes Diabetes

0 73 38 111

1 106 29 135

. . . .

8 16 22 38

(5)

Pregnancies Output (Label)

Total Non Diabetes Diabetes

9 10 18 28

Total 500 268 768

b. Langkah Berikutnya meulai melakukan perhitungan Nilai Chi-square dengan membuat tabel 3 seperti dibawah ini :

Tabel 3. Perhitungan nilai Chi-square

Cell Total X Oi-Ei (0i-Ei)^2 ((Oi-Ei)^2)/Ei

0 a 111 0,73 0,54 0,01

0 b 135 18,11 327,95 3,73

….. ….. ….. ….. ….. …..

1 g 38 8,74 76,38 5,76

1 h 28 8,23 67,72 6,93

Nilai Chi 64,59

Nilai Chi-Tabel 26,30

Dari perhitungan Chi-square untuk atribut Pregnancies didapat nilai Chi-square 60,31 langkah selanjutna menghitung menghitung menentukan derajat kebebasan (df) diman nilai df bisa di dapati dari jumlah kelompok -1, pada atribur Pregnancies di kelompokan menjadi 17 kelompok, makan nilai derajat kebebasan adalah 17 dikurangi 1 samadengan 16. selanjutnya menentukan nilai level kepercayaan (α) disini kita akan menentukan nilai kepercayaan di 95% maka nilai alpha 0.05, setelah itu dicockan dengan tebel Chi-square seberti tabel 4 dibawah ini

Tabel 4. Chi Tabel

df Level Kepercayaan (α)

95% 85% 75% 65%

0,05 0,15 0,25 0,35

1 3,84 2,07 1,32 0,87

2 5,99 3,79 2,77 2,10

. . . . .

16 26,30 21,79 19,37 17,56

17 27,59 22,98 20,49 18,63

Setelah menentukan df dan α, cari nilai CI dalam tabel Chi-Square. Nilai Chi ini akan ditemukan pada kolom yang sesuai dengan derajat kebebasan dan baris yang sesuai dengan level kepercayaan didapati nilai 26.30.

Selanjutnya nilai statistik pengujian (hasil dari perhitungan Chi-Square) kita akan bandingkan dengan nilai chi- tabel diman nilai perhitungan Chi-square didapat sebesar 60,31. Perhitungan chi-square didapati lebih besar dari nilai chi tabel, maka bisa diambil kesimpulan bahwa atribut Pregnancies hipotesis ini bisa diterima. Bahwa atrbut Pregnancies ini memiliki korelasi dengan label. Selanjutnaya proses diatas diujika kepada 7 atribut lainya seperti Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigreeFunction dan Age. Untuk hasil perhitungan uji Chi-squar terhadap kedelapan atribut pada dataset PIMA dapat dilihat pada tabel 5 hasil Uji Chi-Square dibawah ini

Tabel 5. Hasil Uji Chi-square

Atribut Chi Hitung df (α) Chi Tabel Kesimpulan

Pregnancies 64,59 16 0,05 26,30 Diterima

Glucose 269,73 135 0,05 163,12 Diterima

BloodPressure 54,93 46 0,05 62,83 Ditolak SkinThickness 73,56 50 0,05 67,50 Diterima

Insulin 227,77 185 0,05 217,73 Diterima

BMI 286,47 247 0,05 284,66 Diterima

DiabetesPedigreeFunction 152,48 126 0,05 153,20 Ditolak

Age 140,94 51 0,05 68,67 Diterima

3.2.2 Optimasi Bobot Fiture menggunakan PSO

Setelah data kita dapat enam fiture yang berkorelasi dengan lebel menggunakan Chi-suare langkag berikutnya kita akan mengoptimasi dari bobot fiture mengunakan Particle Swarm Optimization (PSO). Dalam PSO, data diterjemahkan ke dalam suatu representasi partikel yang memiliki nilai-nilai tertentu untuk setiap atribut. Partikel- partikel ini kemudian dipindahkan dan dioptimalkan melalui serangkaian iterasi untuk menemukan partikel dengan nilai fitness terbaik dari seluruh partikel disetiap atribut pada dataset PIMA Indians Diabetes Dataset, partikel

(6)

dengan nilai fitness terbaik nantinya yang mewakili solusi terbaik. Untuk tahapan menghitung PSO sebagai contoh pada penelitian ini, peneliti akan memulai menghitung nilai optimal dari atribut Pregnancies adapaun tahapanya sebagai berikut:

1. Tentukan Jumlah Partiken (N)

Pada pemilihan jumlah partikel atau N yang digunakan sebaiknya ukurannya tidak terlalu besar, tetapi juga tidak terlalu kecil, agar ada banyak kemungkinan posisi menuju solusi optimal. Jika terlalu kecil sedikit kemungkinan menemukan posisi partikel yang optimal namun jika terlalu besar juga akan membuat perhitungan jadi lebih panjang. Sehingga digunakan N = 17.

2. Penentuan Posisi, Kecepatan, Pbest dan Gbest Awal Partikel

Untuk iterasi awal yaitu iterasi 0 kecepatan awal adalah 0 untuk semua partikel dikarenakan partikel masih berada ditempat awal belum menuju ke solusi yang diinginkan. Pbest merupakan nilai terbaik dari partikel tersebut. Nilai Pbest awal adalah sama dengan nilai posisi awal partikel, unt proses perhitungan itersi 0 sebagai berikut:

min 𝑓(𝑥) = ((500/768) − 𝑥) 2 (1)

Tabel 6. Gbest

Partikel X Awal V 𝑓(𝑥) Pbest Gbest Posisi Partikel

1 9 0 69,71 9

0,12 1

2 8 0 54,01 8

3 7 0 40,31 7

4 6 0 28,61 6

5 5 0 18,91 5

6 4 0 11,22 4

7 3 0 5,52 3

8 2 0 1,82 2

9 17 0 267,29 17

10 15 0 205,89 15

11 14 0 178,19 14

12 13 0 152,50 13

13 12 0 128,80 12

14 11 0 107,10 11

15 10 0 87,40 10

16 1 0 0,12 1

17 0 0 0,42 0

Selanjutnaya proses diatas diujika kepada 7 atribut lainya seperti Pregnancies, Glucose, BloodPressure, SkinThickness, Insulin, BMI, DiabetesPedigree-Function dan Age. dan nilai dari masing-masing atribut yang sudah di optimalkan baru akan mulai kita uji klasikasinya dengan menggunakan Deep neural network.

3.3 Klasifikasi Menggunakan Deep neural Network

Setelah dataset PIMA India Diabetes Dataset (PIDD) dilakukan seleksi fitur menggunakan Chi-square dan dioptimasi menggunakan PSO. pada tahap selanjutnya adalah melakukan pelatihan model sesuai dengan metode yang diusulkan pada Bab III diatas. pada pengujian model ini menggunakan metode klasifikasi Deep Neural Network (DNN) dan Proses klasifikasi diolah menggunakan software Rapid Miner. Ada dua tahapan yang dilakukan ketika proses klasifikasi yaitu training dan testing. Tahapan tersebut dilakukan untuk menemukan hasil output terbaik dari klasifikasi algoritma DNN. adapun beberapa parameter yang perlu dikonfigurasi pada ujicoba klasifikasi menggunakan DNN menggunakan rapid miner diantaraya hidden layer, traning cycles, learning rate dan momentum.

Pada penelitian ini untuk menentukan nilai dari masing-masing atribut peneliti mencoba beberapa eksperimen dan validasi untuk menentukan teknik optimisasi yang optimal dan memastikan bahwa model dapat menangani data baru dengan baik. adapun nilai dari masing-masing atribut yang akan digunakan oleh peneliti bisa dilihat pada tabel 7 dibawah ini:

Tabel 7. Experimen Value Percobaan Ke Hidden Layer

Traning cycles learning rate momentum

1 2

1 6 (neuron) 2 (neuron) 250 0,01 0,9

2 8 (neuron) 2 (neuron) 250 0,01 0,9

3 10 (neuron) 2 (neuron) 250 0,01 0,9

(7)

3.4 Klasifikasi DNN

Dari Dataset yang telah melalui tahap pengolahan data, untuk tahap selanjutnya yaitu melakukan tahap pelatihan model. Berdasarkan skenario klasifikasi pelatihan model yang pertama yaitu menggunakan algoritma DNN untu dataset PIMA Indians Diabetes Dataset klasifikasi diolah ke dalam Rapid Miner. Ada dua tahapan yang dilakukan ketika proses klasifikasi yaitu training dan testing Tahapan tersebut dilakukan untuk menemukan hasil outputterbaik dari klasifikasi algoritma DNN.

Dapat disumpulkan pada ujicoba ke 1 memiliki akursi yang paling tinggi yaitu di angka 76.62%, dan untuk percobaan ke dua dan ketiga diangka 74.03% dan 74.68%. untuk hasil ujicoba PIMA + DNN dapat dilihat pada gambar 2 dibawah ini:

Gambar 2. Perbandingan hasil ujicba 1 ,2 dan 3 pada dataset PIMA + DNN 3.5 Klasifikasi DNN + Chi-Square

Pada tahap kedua ini kita akan mencoba melihat hasil ujicoba dataset PIMA yag telah dilakukan proses seleksi fitur menggunakan Chi-Square untuk mencari nilai akurasi, sensitivitas atau recall, specificity, precision dan AUC.

sama seperti halnya yang dilakukan pada klasifikasi DNN menggunakan dataset PIMA di atas, pada proses ini pada saat uji klasifikasi menggunakan Deep Neural Network (DNN)

Dapat disumpulkan pada ujicoba ke 1,2 dan 3 memiliki akursi yang sama yaitu di angka 74.03% meskipun terdapat beberapa perbedaan nilai di sensifitas, specifity, Fp-rate dan AUC. untuk hasil ujicoba PIMA + DNN dan Chi-square dapat dilihat pada gambar 3 dibawah ini:

Gambar 3. Perbandingan hasil ujicba 1 ,2 dan 3 pada dataset PIMA + DNN + Chi-Square 3.6 Klasifikasi DNN + Chi-Square + PSO (DNN-CSPSO)

Pada tahap ujicoba terahir ini, peneliti akan mencoba menggabungkan antara dataset PIMA Indians Diabetes Dataset yang sudah di lakukan seleksi atribut menggunakan Chi-square yang di peroleh sebanyak 6 atribut, kemudian akan dilanjutkan dengan optimasi menggunakan PSO.adapaun grafik perbandingan ujicoba 1, 2 dan tiga pada menerapan metode DNN + Chi-square dan PSO untuk nilai akurasi, sensifitas, specifity, Fp-rate dan AUC, bisakita lihat pada gambar dibawah ini:

Gambar 2. Perbandingan hasil ujicba 1, 2 dan 3 pada dataset PIMA, DNN+ Chi-Square + PSO 0,000

0,500 1,000

Akurasi Sensivitas Spesicity Precision Fp-Rate AUC

Hasil Perbandingan Ujicoba

Ujicoba ke 1 Ujicoba ke 2 Ujicoba ke 3

0,0000 1,0000

Hasil Perbandingan Ujicoba

Ujicoba ke 1 Ujicoba ke 2 Ujicoba ke 3

0 0,5 1

Hasil Perbandingan Ujicoba

Ujicoba ke 1 Ujicoba ke 2 Ujicoba ke 3

(8)

3.7 Evaluasi dan Validasi Hasil

Berdasarkan percobaan yang telah dilakukan untuk memecahkan maslah deteksi penyakit diabetes didapatkan hasil seperti tabel 8 berikut.

Tabel 8. DNN, DNN + Chi-square dan DNN + Chi-square + PSO Model Hidden Layer Traning

cycles

learning rate

momen-

tum Akurasi Sensiti-

vitas Specificity precision AUC

1 2

DNN 6 2 250 0,01 0,9 76,62% 57,41% 87,00% 70,45% 0,722

8 2 250 0,01 0,9 74,03% 51,85% 76,79% 66,67% 0,689

10 2 250 0,01 0,9 74,68% 57,41% 78,50% 65,96% 0,707 DNN +

Chi-square

6 2 250 0,01 0,9 74,03% 44,44% 90,00% 70,59% 0,672

8 2 250 0,01 0,9 74,03% 68,52% 81,91% 61,67% 0,728

10 2 250 0,01 0,9 74,03% 51,85% 76,79% 66,67% 0,689 DNN +

Chi-square + PSO

6 2 250 0,01 0,9 82,47% 66,67% 91,00% 80,00% 0,788

8 2 250 0,01 0,9 83,77% 64,81% 83,19% 85,37% 0,794

10 2 250 0,01 0,9 85,71% 68,52% 84,82% 88,10% 0,818 Dari tabel tersebut dapat dilihat bahwa pengujian percobaan model pertama dengan metode DNN memiliki nilai akurasi terbaik pada 76.62% pada ujicoba ke 1 dengan nilai AUC sebesar 0.722, dan pada pengujian model dua menggunakan DNN yang ditambahkan Chi-square sebagai seleksi atribut dan dioptimasi menggunakan PSO nilai akurasi 85,71% dengan nilai AUC sebanyak 0,818 yang berada di ujicoba ke 3, dengan 2 hidden layer, yang pada layer pertama memiliki 10 neuron dan layer kedua memiliki 2 neuron, traning cycles dilakukan sebanyak 250, learning rate diset pada 0.01 dan 0.9 untuk nilai momentumnya. adapun perbandingan akurasi dari percobaan dua model bisa dilihat pada gambar 4 dibawah ini:

Gambar 3. Grafik Perbandingan Hasil Akurasi Permodelan

Melalui percobaan kedua model diatas dapat dilihat bahwa nilai akurasi dari percobaan menggunakan metode DNN berbasis Chi-square dan dioptimasi dengan PSO nilai akurasi tertinggi ada pada angka 85,71, nilai akurasi tersebut didapati lebih baik dari kedua ujicoba model sebelumnya. Dari pengamatan ketiga percobaan model ditas didapati peningkatan sebesar 11.04 % pada percobaan DNN + Chi-Square + PSO pada dua hiden layer dengan 10 neuron dilayer pertama dan 2 neuron di layer ke 2, jika di bandingkan dengan model yang mengimplemtasikan model DNN 74,68% di posisi dua hiden layer dengan 10 neuron dilayer pertama dan 2 neuron di layer ke 2.

4. KESIMPULAN

Dalam penilitian ini dilakukan pengujian model dengan menggunakan metode DNN, DNN + Chi-square dan DNN + Chi-square + PSO dengan menggunakan dataset PIMA Indians Diabetes Dataset untuk mendeteksi penyakit diabetes. Hasil dari pengujian dataset PIMA dengan DNN mendapatkan nilai akurasi sebanyak 76.62% dengan nilai AUC sebesar 0.772. Sedangakan pengujian dengan menggunakan metode DNN seleksi atribut metode Chi- square dan dioptimasi dengan PSO didapatkan nilai akurasi sebanyak 85.71 % dengan nilai AUC sebanyak 0.818.

Maka dapat disimpulkan dari pengujian data penyakit diabetes menggunakan metode Deep Neural network yang ditambahkan Chi-square sebagai seleksi atribut dan dioptimasi menggunakan PSO lebih baik jika dibandingkan dengan metode DNN tanpa dilakukan seleksi fitur dan pengoptimasian dengan PSO.Dengan demikian dapat disimpulkan bahwa penerapan Chi-square untuk seleksi atribut dan yang dioptimasi menggunakan PSO dapat meningkatkan kinerja DNN pada deteksi penyakit diabetes dengan dataset PIMA Indians Diabetes Dataset memeberikan pemecahan masalah dilihat dari peningkatan nilai akurasi yang lebih baik..

Ujicoba ke1 Ujicoba ke2 Ujicoba ke 3

DNN 0,7662 0,7403 0,7468

DNN + Chi-Square 0,7403 0,7403 0,7403

DNN + Chi-square + PSO 0,8247 0,8377 0,8571

0,6500 0,7000 0,7500 0,8000 0,8500 0,9000

Perbandingan Hasil Akurasi Model

(9)

UCAPAN TERIMAKASIH

Terima kasih dosen pembimbing yang selalu mendukung dan membimbing saya dalam penulisan ini, serta teman teman saya yang selalu mendukung dalam penulisan ini.

REFERENCES

[1] M. B. Hanif and Khoirudin, “Sistem Aplikasi Prediksi Penyakit Diabetes Menggunakan Fiture Selection Korelas Pearson dan Klasifikai Naive Bayes,” Pengemb. Rekayasa dan Teknol., vol. 16, no. 2, pp. 199–205, 2020.

[2] M. T. García-Ordás, C. Benavides, J. A. Benítez-Andrades, H. Alaiz-Moretón, and I. García-Rodríguez, “Diabetes detection using deep learning techniques with oversampling and feature augmentation,” Comput. Methods Programs Biomed., vol. 202, 2021, doi: 10.1016/j.cmpb.2021.105968.

[3] H. Sun et al., “IDF Diabetes Atlas: Global, regional and country-level diabetes prevalence estimates for 2021 and projections for 2045.,” Diabetes Res. Clin. Pract., vol. 183, p. 109119, Jan. 2022, doi: 10.1016/j.diabres.2021.109119.

[4] Y. Du, A. R. Rafferty, F. M. McAuliffe, L. Wei, and C. Mooney, “An explainable machine learning-based clinical decision support system for prediction of gestational diabetes mellitus,” Sci. Rep., vol. 12, no. 1, pp. 1–14, 2022, doi:

10.1038/s41598-022-05112-2.

[5] Y. Mu, X. Liu, and L. Wang, “A Pearson’s correlation coefficient based decision tree and its parallel implementation,”

Inf. Sci. (Ny)., vol. 435, pp. 40–58, 2018, doi: 10.1016/j.ins.2017.12.059.

[6] X. Gu, J. Han, Q. Shen, and P. P. Angelov, Autonomous learning for fuzzy systems: a review, vol. 56, no. 8. Springer Netherlands, 2023.

[7] M. Iglicki, D. Zur, and A. Loewenstein, “Detection of diabetic retinopathy using deep learning analysis,” Retin. Today, vol. 2021, no. September, pp. 42–46, 2021.

[8] J. Wu, S. Pan, X. Zhu, Z. Cai, P. Zhang, and C. Zhang, “Self-adaptive attribute weighting for Naive Bayes classification,”

Expert Syst. Appl., vol. 42, no. 3, pp. 1487–1502, 2015, doi: 10.1016/j.eswa.2014.09.019.

[9] S. R. Kamel and R. Yaghoubzadeh, “Feature selection using grasshopper optimization algorithm in diagnosis of diabetes disease,” Informatics Med. Unlocked, vol. 26, p. 100707, 2021, doi: 10.1016/j.imu.2021.100707.

[10] T. M. Alam et al., “A model for early prediction of diabetes,” Informatics Med. Unlocked, vol. 16, no. January, p. 100204, 2019, doi: 10.1016/j.imu.2019.100204.

[11] C. Villa-Blanco, C. Bielza, and P. Larrañaga, Feature subset selection for data and feature streams: a review, vol. 56, no.

s1. Springer Netherlands, 2023.

[12] I. Setiaji and A. Z. Fanani, “Optimasi K-means Clustering Dengan Menggunakan Particle Swarm Optimization Untuk Menentukan Jumlah Cluster Pada Kanker Serviks,” J. Media Inform. Budidarma, vol. 7, no. 3, pp. 1463–1473, 2023, doi:

10.30865/mib.v7i3.6292.

[13] C. Practice, “IDF releases report of global survey on access to medicines and supplies for people with diabetes,” Diabetes Res. Clin. Pract., vol. 129, pp. 224–225, 2017, doi: 10.1016/j.diabres.2017.06.001.

[14] R. B. Lukmanto, Suharjito, A. Nugroho, and H. Akbar, “Early detection of diabetes mellitus using feature selection and fuzzy support vector machine,” Procedia Comput. Sci., vol. 157, pp. 46–54, 2019, doi: 10.1016/j.procs.2019.08.140.

[15] R. Blanquero, E. Carrizosa, P. Ramírez-Cobo, and M. R. Sillero-Denamiel, “Variable selection for Naïve Bayes classification,” Comput. Oper. Res., vol. 135, p. 105456, 2021, doi: 10.1016/j.cor.2021.105456.

[16] E. O. Omuya, G. O. Okeyo, and M. W. Kimwele, “Feature Selection for Classification using Principal Component Analysis and Information Gain,” Expert Syst. Appl., vol. 174, no. February, p. 114765, 2021, doi:

10.1016/j.eswa.2021.114765.

[17] M. Salvi, U. R. Acharya, F. Molinari, and K. M. Meiburger, “The impact of pre- and post-image processing techniques on deep learning frameworks: A comprehensive review for digital pathology image analysis,” Comput. Biol. Med., vol.

128, p. 104129, 2021, doi: 10.1016/j.compbiomed.2020.104129.

[18] Q. Xiao et al., “Improving lesion segmentation for diabetic retinopathy using adversarial learning,” Lect. Notes Comput.

Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 11663 LNCS, pp. 333–344, 2019, doi:

10.1007/978-3-030-27272-2_29.

[19] Ö. F. Arar and K. Ayan, “A Feature Dependent Naive Bayes Approach and Its Application to the Software Defect Prediction Problem,” Appl. Soft Comput. J., 2017, doi: 10.1016/j.asoc.2017.05.043.

[20] L. Zhang, S. Feng, G. Duan, Y. Li, and G. Liu, “Detection of microaneurysms in fundus images based on an attention mechanism,” Genes (Basel)., vol. 10, no. 10, 2019, doi: 10.3390/genes10100817.

Referensi

Dokumen terkait

Pengaturan parameter-parameter proses gurdi dengan menggunakan PSO yang dapat meminimalkan nilai respon gaya tekan, torsi, delaminasi lubang masuk dan delaminasi lubang

Tahapan fitur seleksi dengan menggunakan chi-square yang bertujuan untuk menyeleksi term-term hasil dari preprocessing untuk proses pengelompokan dokumen, sehingga

Hasil Pengujian algoritma Naive Bayes Classifier menggunakan seleksi fitur Chi Squared Statistic berbasis forward selection memiliki nilai akurasi yang lebih tinggi

Berdasarkan latar belakang, pada penelitian ini membahas tentang penentuan jalur terpendek pada ojek online Go-Jek dengan menggunakan Probabilistic Neural Network

Dasar penulis menggunakan PSO adalah berdasarkan beberapa penelitian sebelumnya mengenai model Artificial Neural Network Berbasis Particle Swarm Optimization Untuk Prediksi

Hasil analisis yang dari metode Naïve Bayes dengan seleksi ciri chi Square memiliki akurasi 93% dan tanpa seleksi ciri Chi Square memiliki akurasi 92%, sehingga dapat disimpulkan Metode

KESIMPULAN Dari hasil pengujian sistem maka dapat disimpulkan bahwa: a Berdasarkan hasil dan pembahasan pada proses klasifikasi pada dataset pima indian diabetes menggunakan