Analisis Perbandingan Proses Cluster Menggunakan K- Means Clustering dan K-Nearest Neighbor pada Penyakit Diabetes Mellitus

(1)

BAB I

PENDAHULUAN

1.1. Latar Belakang

World Health Organization (WHO) menempatkan Diabetes Mellitus sebagai salah satu penyakit yang paling banyak menyebabkan kematian penduduk dunia, pada penelitian J. W. Smith tahun 1988 menggunakan ADAP learning algorithm untuk menciptakan sebuah software cerdas yang digunakan untuk memprediksi apakah sebuah sample terindikasi Diabetes Mellitus, penelitian ini mampu memprediksi dengan tingkat ketelitian hingga 76%. Sehingga penulis tertarik untuk melakukan penelitian mengenai penggunaan data mining algorithm dalam pengelompokan (cluster) pada Diabetes Mellitus menggunakan K- Means Clustering dan K-Nearest Neighbor.

K-Means Clustering dan K-Nearest Neighbor adalah algoritma dalam data mining yang tergolong dalam unsupervised algorithm yang digunakan dalam proses pengelompokan (cluster) sebuah dataset tanpa label, metoda ini dapat digunakan pada dataset Diabetes Mellitus dikarenakan proses pengelompokan dapat dilakukan berdasarkan ciri-ciri khusus pada masing-masing kelompok (cluster). K-Means Clustering dan K-Nearest Neighbor memiliki beberapa persamaan dalam cara pengelompokan yaitu sama-sama menghitung perbedaan dan persamaan pada masing- masing sample, perbedaan algoritma ini terdapat pada penggunaan Euclidean distance pada K-Means Clustering untuk menghitung perbedaan masing-masing sample sedangkan penggunaan Gaussia n kernel pada K-Nearest Neighbor untuk menghitung persamaan pada masing-masing sample. Penulis merasa tertarik untuk memahami pengaruh perbedaan ini, apakah Diabetes Mellitus dapat dikelompokkan dengan cara menghitung perbedaan masing-masing sample menggunakan K-Means Clustering atau dapat dikelompokkan dengan cara menghitung persamaan masing-masing sample menggunakan K-Nearest Neighbor.

(2)

Diharapkan berdasarkan penelitian ini penulis berharap dapat memberikan rekomendasi algoritma yang lebih ideal yang dapat digunakan dalam pengelompokan Diabetes Mellitus.

1.2. Rumusan Masalah

Rumusan masalah dalam penulisan tugas akhir ini adalah bagaimana perbandingan kinerja dari proses clustering menggunakan algoritma K-Means Clustering dan K- Nearest Neighbor pada Penyakit Diabetes Mellitus.

1.3.Batasan Masalah

Batasan masalah dalam penelitian ini adalah:

1. Perbandingan kinerja algoritma hanyalah antara algoritma K-Means Clustering dan K-Nearest Neighbor .

2. Penelitian ini hanya membandingkan hanya membandingkan running time dan Akurasi.

3. Penelitian ini hanya berfokus pada proses pengelompokan (clustering) berdasarkan dataset yang telah tersedia.

4 . Penelitian ini menggunakan dataset yang telah tersedia dalam UCI

5. Machine Learning Repository, yaitu: PIMA Indians Diabetes Dataset atau dataset yang didapat dari National Institute of Diabetes and Digestive and Kidney Diseases.

6. Penelitian ini menggunakan dataset yang telah mengalami preprocessing terlebih dahulu yang pertama kali digunakan oleh Smith,~J.~W., Everhart,~J.~E., Dickson,~W.~C., Knowler,~W.~C., \& Johannes,~R.~S pada tahun 1988.

6. XAMPP 1.7.1 dimana terdapat Apache sebagai web server, PHP sebagai bahasa pemrograman yang digunakan, dan MySQL sebagai software untuk server database.

1.4.Tujuan Penelitian

Tujuan penelitian ini adalah memahami perbandingan kinerja algoritma K-Means Clustering dan K-Nearest Neighbor dalam melakukan pengelompokan (clustering) pada penyakit Diabetes Melitus.

(3)

1.5. Manfaat Penelitian

Manfaat penelitian ini adalah sebagai alternatif pemilihan algoritma yang paling ideal dalam melakukan pengelompokan (clustering) pada penyakit Diabetes Melitus. 1.6. Metodelogi Penelitian

Metode penelitian yang digunakan dalam penulisan tugas akhir ini adalah sebagai berikut:

1. Studi Literatur

Metode ini dilaksanakan dengan melakukan studi kepustakaan melalui membaca buku-buku, skripsi, dan jurnal yang dapat mendukung penulisan Tugas Akhir yang relevan mengenai K-Means Clustering dan K-Nearest Neighbor.

2. Analisis

Analisis masalah yang dimulai dengan tahap mengindentifikasi masalah, dilakukan pengumpulan data, memahami cara kerja algoritma, menganalisis dan membaut laporan tentang hasil analisis algoritma, menggambarkan sistem dengan menggunakan flowchart.

3. Perancangan

Pada tahap ini dilakukan perancangan data mining untuk clustering data. Termasuk didalamnya yaitu perancangan flowchart, dan perancangan sistem.

4. Implementasi

Metode ini dilaksanakan dengan mengimplementasi rancangan sistem yang telah dibuat pada impelementasi menggunakan PHP sebagai bahasa pemrograman yang digunakan, dan MySQL sebagai software untuk server database.

5. Pengujian

Setelah proses pengkodean selesai maka akan dilakukan proses pengujian terhadap program yang dihasilkan untuk mengetahui apakah program sudah berjalan dengan benar dan sesuai dengan perancangan yang dilakukan.

6. Penyusunan laporan dan kesimpulan akhir

Membuat laporan hasil analisa dan perancangan ke dalam format penulisan tugas akhir yang disertai dengan kesimpulan.

(4)

1.7. Sistematika Penulisan

Dalam penulisan penelitian ini ada beberapa sistematika penulisan, yaitu: BAB 1: PENDAHULUAN

Bab ini berisi latar belakang masalah, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodelogi penelitian dan sistematika penulisan skripsi.

BAB 2: TINJAUAN PUSTAKA

Pada bab ini membahas mengenai teori-teori yang digunakan untuk memahami permasalahan yang berkaitan dengan proses clustering menggunakan algoritma K-Means Clustering dan K-Nearest Neighbor, visualisasi data.

BAB 3: ANALISIS DAN PERANCANGAN SISTEM

Pada bab ini berisikan analisis mengenai metode yang digunakan untuk menyelesaikan masalah dan perancangan dari sistem yang dibangun.

BAB 4: IMPLEMENTASI DAN PENGUJIAN

Bab ini berisi tentang pengujian program yang telah diimplentasikan dengan menggunakan bahasa pemograman PHP.

BAB 5: KESIMPULAN DAN SARAN

Bab ini berisi kesimpulan yang telah dirangkum dalam penelitian ini dan berisi saran yang berguna dalam usaha untuk melakukan perbaikan dan pengembangan penelitian ini.