Prediksi Diabetes Menggunakan Dataset Medis dan Demografi

(1)

FINAL PROJECT VSGA ADS BATCH 2 MAKASSAR

Nama : Dea Zahwa Malika.A

Asal Perguruan Tinggi : Universitas Islam Negeri Alauddin Makassar Judul Dataset : Diabetes Prediction Dataset

Link Dataset : https://www.kaggle.com/datasets/dat00700/diabetes- prediction-dataset

1. Business Understanding Deskripsi Permasalahan:

Dataset ini merupakan data medis dan demografi yang dikumpulkan dari pasien yang mungkin atau telah menjadi pasien diabetes. Objektif dari dataset ini adalah untuk membangun model machine learning yang dapat membantu dalam prediksi diabetes pada pasien. Prediksi diabetes yang tepat dan cepat sangat penting untuk mengidentifikasi dan mengelola kondisi, serta untuk mengurangi dampak negatif dari penyakit tersebut. Penggunaan algoritma, seperti decision tree, untuk mengidentifikasi dan mengelola kondisi diabetes. Dataset ini mengandung informasi medis dan demografi, seperti usia, jenis kelamin, berat badan, tinggi badan, keluhan, dan tingkat gula darah. Dataset ini dapat digunakan untuk membangun model untuk prediksi diabetes pada pasien berdasarkan informasi medis dan demografi yang tersedia

Tugas Analisis: Klasifikasi

Deskripsi Data:

Dataset yang diberikan adalah Dataset Prediksi Diabetes. Dataset ini diambil dari Kaggle dan tersedia dalam format CSV.

Dataset ini tersedia dari 318 baris dan 9 kolom. Setiap baris mewakili data tentang satu diabetes, dan kolom-kolomnya mencakup informasi tentang berbagai aspek dari model diabetes tersebut

2. Data Understanding

No Nama Atribut Deskripsi Tipe Data ∑

Missing Value

1 Gender Berisi jenis kelamin pasien Polynominal

2 Age Berisi usia pasien Integer

3 Hypertension Berisi tekanan darah pasien Integer 4 Heart Diases Berisi riwayat penyakit jantung

pasien Integer

5 Smoking History Berisi riwayat komsumsi tabak

pasien Polynominal

6 BMI Berisi massa badan terhadap

tinggi badan pasien

Real

7 HB Berisi informasi Hb dalam darah

pasien Real

8 Blood Glucose Berisi informasi tingkat gula

darah pasien Integer

(2)

9 Diabetes Berisi informasi status penyakit

pasien Polynominal

3. Data Preparation

Data ini berisi prediksi diabetes pada pasien. Menambahkan dataset yang telah didapat lalu digunakan atribut Numerical to Binominal karena pada label yang saya pilih

“diabetes” bersifat numerical yg berisi bilangan biner sehingga perlu diubah ke binominal. Setelah itu menggunakan Operator Filter Example untuk mimilih data tertentu yang ingin atau tidak ingin ditampilkan kedalam hasil visualisasi data atau menghapus missing value. Lalu gunakan Operator Select Attributes saya menghilangkan satu attributes karna mengganti data yang hilang atau rusak melalui mencari rata-rata dari data yang hilang.

Selanjutnya saya menggunakan Operator Split Data untuk membagi nilai data tarining dan data testing dimana (data training ratio 0.7 dan data testing 0.3)

4. Modeling

Pada modeling ini dataset diolah menggunakan algoritma Decision Tree untuk melihat nilai akurat sehingga dapat melakukan pemrosesan dan analisi data.

Algoritma: Decision Tree

Kelebihan dari algoritma Decision Tree adalah dapat digunakan untuk tugas

klasifikasi serta cocok untuk menangani berbagai jenis data dan proses pengambilan

(3)

keputusan ini tidak terbatas pada hubungan linier dan kompleksitas yang tinggi dalam data dapat di tangani dengan baik oleh algoritma.

5. Evaluation Deskripsi:

Dalam project ini digunakan untuk algoritma Decision Tree dalam pemodelan klasifikasi, termasuk untuk memprediksi diabetes pada pasien. Adapun alasan menggunakan algoritma Decision Tree :

Efektif: Decision Tree adalah algoritma yang efektif untuk mengidentifikasi hubungan dan pengaruh antara variabel dan target, serta untuk memprediksi keluaran.

Bersifat fleksibel: Decision Tree dapat digunakan untuk tugas klasifikasi dan regresi, serta cocok untuk menangani berbagai jenis data seperti data diskrit, data kontinu, dan data kategorikal.

Efisien: Decision Tree merupakan salah satu metode tercepat untuk mengidentifikasi variabel signifikan dan hubungan antara dua variabel.

Selanjutnya gunakan Operator “Apply Model” yang Dimana berfungsi untuk menerapkan model yang telah dilatih pada data baru untuk membuat prediksi

(4)

6. Deployment

Dari hasil akurasi algoritma Decision Tree : 98.00%. berdasarkan hasil akurasi tersebut dapat dilihat bahwa hasil tersebut dianggap relatif sangat memuaskan sehingga model yang dibangun dapat dilanjutkan pada tahap deployment nantinya. Pada tahap deployment, solusi yang telah dikembangkan akan diimplementasikan dan dijalankan pada lingkungan bisnis atau produksi. Tahap ini meliputi pengujian, integrasi, pengaturan, dan peluncuran solusi. Hal ini melibatkan pengujian sistem pada lingkungan produksi yang sesuai dan menjamin bahwa sistem dapat beroperasi dengan baik dan menghasilkan output yang akurat.