i
IMPUTASI K-NEAREST NEIGHBORS UNTUK MISSING VALUE PADA DATA HEPATITIS
SKRIPSI
Sebagai Persyaratan Guna Meraih Gelar Sarjana Teknik Elektro Universitas Muhammadiyah Malang
Disusun oleh:
ARIFIN SURYA ALIANSO NIM. 201610130311126
PROGRAM STUDI TEKNIK ELEKTRO FAKULTAS TEKNIK
UNIVERSITAS MUHAMMADIYAH MALANG
2021
ii
LEMBAR PERSETUJUAN
IMPUTASI K-NEAREST NEIGHBORS UNTUK MISSING VALUE PADA DATA HEPATITIS
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana (S1) Teknik Elektro Universitas Muhammadiyah Malang
Disusun Oleh:
ARIFIN SURYA ALIANSO 201610130311126
Diperiksa dan disetujui oleh:
Pembimbing I Pembimbing II
Dr. Ir. Lailis Syafa’ah, M.T. Amrul Faruq, ST., M.Eng.
NIDN: 0721106301 NIDN: 0718028601
iii
iv
v
ABSTRAK
Banyak permasalah yang terjadi pada sebuah dataset, salah satunya adalah tidak lengkapnya data pada suatu atribut atau biasa disebut missing value. Missing value sangat mempengaruhi sebuah hasil analisis yang dilakukan bagi para peneliti.
Untuk mengatasi masalah tersebut, salah satu cara yang dapat dilakukan ialah dengan melakukan imputasi. Imputasi adalah sebuah metode mengisi nilai missing value dengan cara mengganti nilai missing value tersebut dengan suatu nilai yang mungkin berdasarkan informasi dataset. Penelitian ini bertujuan untuk menangani missing value pada data hepattis atribut albumin dengan menggunakan imputasi K- Nearest Neighbor (KNN). Cara kerja dari KNN ialah dengan menghitung weight mean estimation dari jumlah K yang sudah ditentukan. K merupakan sebuah observasi terdekat yang akan digunakan. Pada penelitian kali ini, K yang akan digunakan ialah ketika K = 3, K = 5, K = 7, K = 9, dan K = 15. Untuk mengetahui hasil ketepatan dari sebuah imputasi dapat dilakukan sebuah evaluasi dengan menggunakan Mean Square Error (MSE). Berdasarkan hasil yang didapat pada penelitian ini, akurasi terbaik perhitungan program didapatkan ketika K = 7 dan MSE terbaik saat K = 15.
Kata kunci: Missing Value, Imputasi, KNN, MSE
vi
ABSTRACT
Many problems occur in a dataset, one of which is incomplete data on an attribute or commonly called missing value. Missing value greatly affects the results of an analysis conducted for researchers. To overcome this problem, one way that can be done is to perform imputation. Imputation is a method of filling in the missing value by replacing the missing value with a possible value based on dataset information. This study aims to deal with missing values in albumin attribute hepatic data by using K-Nearest Neighbor (KNN) imputation. The way KNN works is by calculating the weight mean estimation of the number of K that has been determined. K is the closest observation to be used. In this study, the K that will be used is when K = 3, K = 5, K = 7, K = 9, and K = 15. To determine the accuracy of an imputation, an evaluation can be carried out using the Mean Square Error (MSE). Based on the results obtained in this study, the best accuracy of program calculations is obtained when K = 7 and the best MSE is when K = 15.
Keywords: Missing Value, Imputation, KNN, MSE
vii
LEMBAR PERSEMBAHAN
Puji syukur kepada Allah Subhanahu Wa Ta’ala atas rahmat dan karunia-Nya sehingga penulis dapat menyelesaikan Tugas Akhir ini. Penulis menyampaikan ucapan terima kasih yang sebesar-besarnya kepada :
1. Allah SWT yang selalu memberikan kemudahan dan petunjuk dalam pengerjaan tugas akhir ini.
2. Kedua orang tua saya Bapak Surya Monas, Ibu Ewah Nurhayati dan kakak saya Indra Surya Alianso beserta seluruh keluarga atas doa dan dukungannya.
3. Ketua Program Studi Teknik Elektro Bapak Zulfatman, M.Eng., Ph.D.. dan Sekretaris Program Studi Teknik Elektro Bapak Widianto, ST, MT. beserta seluruh stafnya.
4. Ibu Dr Ir. Lailis Syafa’ah, M.T. dan Bapak Amrul Faruq, S.T., M.Eng. yang telah meluangkan waktu untuk membimbing penulis dalam menyelesaikan skripsi ini.
5. Seluruh Civitas Akademika (dosen, asisten, dan karyawan) Universitas Muhammadiyah Malang yang telah membekali ilmu dan membantu penulis selama proses studi.
6. Terakhir saya ucapkan terimakasih untuk teman-teman angkatan 2016 yang telah menjadi sahabat saya dan menerima saya.
Semoga Allah Subhanahu Wa Ta’ala memberikan rahmat dan hidayah-Nya atas segala kebaikan dan semoga kita semua selalu dalam lindungan serta tuntunan- Nya.
viii
KATA PENGANTAR
Dengan memanjatkan puji syukur kehadirat Allah Subhanahu Wa Ta’ala.
Atas limpahan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan tugas akhir yang berjudul :
”IMPUTASI K-NEAREST NEIGHBORS UNTUK MISSING VALUE PADA DATA HEPATITIS”
Penulisan tugas akhir ini merupakan salah satu syarat untuk memperoleh gelar sarjana Teknik di Universitas Muhammadiyah Malang, selain itu penulis berharap tugas akhir ini dapat memperluas pustaka dan pengetahuan utamanya dalam bidang elektronika dan informatika.
Penulis menyadari sepenuhnya bahwa dalam penulisan tugas akhir ini masih banyak kekurangan dan keterbatasan. Oleh karena itu penulis mengharapkan saran yang membangun agar tulisan ini bermanfaat bagi perkembangan ilmu pengetahuan ke depan.
Akhir kata semoga buku ini dapat bermanfaat di masa sekarang dan masa mendatang. Sebagai manusia yang tidak luput dari kesalahan, maka penulis mohon maaf apabila ada kekeliruan baik yang sengaja maupun yang tidak sengaja.
Malang, 21 September 2021
Penulis
ix
DAFTAR ISI
LEMBAR JUDUL ... i
LEMBAR PERSETUJUAN ... ii
LEMBAR PENGESAHAN ... iii
LEMBAR PERNYATAAN ... iv
ABSTRAK ... v
ABSTRACT ... vi
LEMBAR PERSEMBAHAN ... vii
KATA PENGANTAR ... viii
DAFTAR ISI ... ix
DAFTAR GAMBAR ... xi
DAFTAR TABEL ... xii
BAB I PEDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 2
1.3 Tujuan ... 2
1.4 Batasan Masalah ... 2
1.5 Sistematika Penulisan ... 2
BAB II DASAR TEORI ... 4
2.1 Pembersihan data (data cleaning) ... 4
2.2 Missing Value ... 5
2.3 Imputasi K-Nearest Neighbor ... 6
2.4 Evaluasi Hasil Imputasi ... 7
BAB III METODOLOGI PENELITIAN ... 8
3.1 Missing Value Dataset ... 9
3.2 Atribut dan Domain Nilai ... 10
3.3 Imputasi Dengan KNN... 12
3.4 Skenario Pengujian ... 12
x
BAB IV IMPLEMENTASI DAN PENGUJIAN ... 13
4.1 Implementasi Program ... 13
4.2 Pengujian Program ... 14
4.3 Hasil Imputasi ... 16
4.4 Hasil Evaluasi ... 18
BAB V KESIMPULAN DAN SARAN ... 20
5.1 Kesimpulan ... 20
5.2 Saran ... 20
DAFTAR PUSTAKA ... 21
LAMPIRAN ... 22
xi
DAFTAR GAMBAR
Gambar 3.1. Blog Diagram Sistem ... 8 Gambar 4.1. Listing Program ... 13
xii
DAFTAR TABEL
Tabel 3.1. Dataset Hepatitis ... 10
Tabel 3.2. Atribut dan Domain Nilai Dataset Hepatitis ... 11
Tabel 4.1. Pengujian Program Saat K=3 ... 14
Tabel 4.2. Pengujian Program Saat K=5 ... 14
Tabel 4.3. Pengujian Program Saat K=7 ... 15
Tabel 4.4. Pengujian Program Saat K=9 ... 15
Tabel 4.5. Pengujian Program Saat K=15 ... 15
Tabel 4.6. Hasil Imputasi KNN Perhitungan Program Pada Atribut Albumin ... 17
Tabel 4.7. Hasil Imputasi KNN Perhitungan Manual Pada Atribut Albumin ... 18
Tabel 4.8. Hasil MSE Imputasi KNN Program Dengan Manual ... 19
DAFTAR PUSTAKA
[1] Susanti, S. Martha, and E. Sulistianingsih, “K Nearest Neighbor dalam Imputasi Missing Data,” Bimaster, vol. 07, no. 1, pp. 1–18, 2018.
[2] A. Izzah and N. Hayatin, “Imputasi Missing data Menggunakan Algoritma Pengelompokan Data K-Harmonic Means,” Semin. Nas. Mat. dan Apl.
2013, no. February 2014, 2013.
[3] R. J. A. Little and D. B. Rubin, Statistical Analysis with Missing Data, Second. Hoboken, NJ, USA: John Wiley & Sons, Inc., 2002.
[4] G. King, J. Honaker, A. Joseph, and K. Scheve, “Listwise Deletion is Evil : What to Do About Missing Data in Political Science,” 1998.
[5] A. P. Dempster, N. M. Laird, and D. B. Rubin, “ Maximum Likelihood from Incomplete Data Via the EM Algorithm ,” J. R. Stat. Soc. Ser. B, vol.
39, no. 1, pp. 1–22, 1977, doi: 10.1111/j.2517-6161.1977.tb01600.x.
[6] D. Li, J. Deogun, W. Spaulding, and B. Shuart, “Towards missing data imputation: A study of fuzzy K-means clustering method,” Lect. Notes Artif. Intell. (Subseries Lect. Notes Comput. Sci., vol. 3066, no. c, pp. 573–
579, 2004, doi: 10.1007/978-3-540-25929-9_70.
[7] A. Farhangfar, L. Kurgan, and J. Dy, “Impact of imputation of missing values on classification error for discrete data,” Pattern Recognit., vol. 41, no. 12, pp. 3692–3705, 2008, doi: 10.1016/j.patcog.2008.05.019.
[8] P. J. García-Laencina, J.-L. Sancho-Gómez, A. R. Figueiras-Vidal, and M.
Verleysen, “K nearest neighbours with mutual information for
simultaneous classification and missing data imputation,” Neurocomputing, vol. 72, no. 7–9, pp. 1483–1493, Mar. 2009, doi:
10.1016/j.neucom.2008.11.026.
[9] J. Han, M. Kamber, and J. Pei, Data Mining: Concepts and Techniques, Third. Morgan Kaufman, 2000.
[10] A. Izzah and N. Hayatin, “Imputasi Missing Data Menggunakan Metode K- Nearest Neighbour dengan Optimalisasi Algoritma Genetika,” pp. 1–7, 2009.
[11] Y. C. Yuan, “Multiple Imputation for Missing Data: Concepts and New
Development,” Rockville, 2000.
[12] Mukarromah, S. Martha, and Ilhamsyah, “Perbandingan Imputasi Missing Data Menggunakan Metode Mean Dan Metode Algoritma K-Means,” Bul.
Ilm. Mat. Stat. dan Ter., vol. 04, no. 3, pp. 305–312, 2015.
[13] U. Mawarsari, “IMPUTASI MISSING DATA DENGAN K-NEAREST NEIGHBOR DAN ALGORITMA GENETIKA,” vol. 6, 2016.
[14] Makridakis, S.; Wheelwright, S.C. dan Mcgee, V.E., 1999, Metode dan Aplikasi Peramalan, Binarupa Aksara, Jakarta.
[15] W. D. Septiani, P. Studi, and M. Informatika, “KOMPARASI METODE KLASIFIKASI DATA MINING ALGORITMA C4.5 DAN NAIVE BAYES UNTUK PREDIKSI PENYAKIT HEPATITIS,” vol. 13, no. 1, pp. 76–84, 2017.
UNIVERSITAS MUHAMMADIYAH MALANG
FAKULTAS TEKNIK
JURUSAN TEKNIK ELEKTRO & D3 TEKNIK ELEKTRONIKA
Jl. Raya Tlogomas 246 Malang 65144 Telp. 0341 - 464318 Ext. 129, Fax. 0341 - 460782
FORM CEK PLAGIASI LAPORAN TUGAS AKHIR
Nama Mahasiswa : Arifin Surya Alianso
NIM : 201610130311126
Judul TA : Impuatasi K-Nearest Neighbor Untuk Missing Value Pada Data Hepatitis Hasil Cek Plagiarisme dengan Turnitin
No. Komponen Pengecekan Nilai Maksimal
Plagiasi (%)
Hasil Cek Plagiasi (%) *
1. Bab 1 – Pendahuluan 10 % 5%
2. Bab 2 – Studi Pustaka 25 % 25%
3. Bab 3 – Metodelogi Penelitian 35 % 19%
4. Bab 4 – Pengujian dan Analisis 15 % 2%
5. Bab 5 – Kesimpulan dan Saran 5 % 0%
6. Publikasi Tugas Akhir 20 % 18%
Mengetahui,
Dosen Pembimbing I, Dosen Pembimbing II,
Dr. Ir. Lailis Syafaah, M.T. Amrul Faruq, S.T., M.Eng
NIDN. 0721106301 NIDN. 0718028601