• Tidak ada hasil yang ditemukan

PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN K-MEANS CLUSTERING SKRIPSI LISA OLIVIA

N/A
N/A
Protected

Academic year: 2022

Membagikan "PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN K-MEANS CLUSTERING SKRIPSI LISA OLIVIA"

Copied!
66
0
0

Teks penuh

(1)

PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN

K-MEANS CLUSTERING

SKRIPSI

LISA OLIVIA 141402125

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2019

(2)

PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN

K-MEANS CLUSTERING

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

LISA OLIVIA 141402125

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2019

(3)
(4)

ii

PERNYATAAN

PENGELOMPOKAN DATA REKAM MEDIS UNTUK MENGETAHUI PENYAKIT ENDEMI DI SUATU DAERAH MENGGUNAKAN

K-MEANS CLUSTERING

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, 26 Juli 2019

Lisa Olivia 141402125

(5)

UCAPAN TERIMA KASIH

Puji dan syukur kehadirat Allah SWT karena rahmat dan karunia-Nya penulis dapat menyelesaikan penyusunan skripsi ini dengan baik, sebagai syarat untuk memperoleh gelar Sarjana Komputer, Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.

Skripsi ini penulis persembahkan kepada orang tua penulis, Bapak Bambang Taruna dan Ibu Rosmala Simarmata yang selalu memberikan doa, dukungan, semangat, kasih sayang dan pengorbanan.

Penulis menyadari bahwa penelitian ini tidak akan terwujud tanpa bantuan banyak pihak. Dengan kerendahan hati, penulis ingin mengucapkan terima kasih kepada:

1. Bapak Prof. Dr. Opim Salim Sitompul, M.Sc. selaku Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara;

2. Ketua Program Studi S1 Teknologi Informasi, Bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc;

3. Ibu Dr. Erna Budhiarti Nababan, M.IT selaku Dosen Pembimbing 1 dan Bapak Bapak Baihaqi Siregar, S.Si., MT selaku Dosen Pembimbing 2 yang bersedia meluangkan waktu, pikiran, saran dan kritiknya untuk penulis dalam menyelesaikan skripsi ini;

4. Ibu Sarah Purnamawati, S.T., M.Sc. selaku Dosen Pembanding 1 dan Bapak Dani Gunawan, ST., MT selaku Dosen Pembanding 2 yang telah memberikan kritik dan saran yang bermanfaat;

5. Teman-teman mahasiswa angkatan 2014 yang telah menemani serta memotivasi penulis, memberikan saran dan kritik yang baik selama proses perkuliahan maupun selama masa pengerjaan skripsi;

6. Abang/kakak senior yang pernah memberikan bantuan, masukan serta motivasi kepada penulis selama masa perkuliahan;

7. Putri Meila Vista, Yulia Shafira Butar-butar, Rani Masyithah Pelle, Najmiyah Bey Nasution, Shanti Lydia, sahabat penulis yang setia menemani, mendukung, menghibur, mendoakan, mengingatkan penulis untuk tetap semangat dalam menjalani hari-hari;

(6)

iv

8. Muhammad Fadly Tanjung, partner organisasi yang banyak berperan membantu penulis dalam menyelesaikan program aplikasi;

9. Hamimi-Hamima: Helva Silvianita, Fadhlah Hani, Nadya Maysyarah, Veny Apriyanti M., dan Irmayani Syafitri, sahabat penulis dalam menghadapi masa suka duka perkuliahan di Kom C;

10. Teman-teman organisasi UKMI Ad-Dakwah, UKMI Al-Khuwarizmi serta murabbi yang selalu mendoakan dan memberikan dukungan agar penulis istiqomah berada dalam kebaikan;

11. Putri Ajeng Ramadhani, Fanny Ramadhana, Yunda Andriyani, Nabilah Hannani, tim belajar dan tempat bertanya penulis selama persiapan menuju sidang skripsi;

12. Semua pihak yang terlibat untuk membantu terlaksananya penelitian ini, yang tidak dapat disebutkan satu per satu namanya.

Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah memberikan bantuan, perhatian, serta dukungan kepada penulis dalam menyelesaikan skripsi ini.

Medan, 26 Juli 2019

Penulis

(7)

ABSTRAK

Rekam medis merupakan bukti tertulis mengenai proses pelayanan yang diberikan kepada pasien oleh dokter dan tenaga kesehatan lainnya. Setiap hari terjadi penambahan data penyakit yang dimiliki pasien di rumah sakit. Namun, data rekam medis yang dimiliki oleh rumah sakit hanya menjadi tumpukan statistik yang belum digali secara maksimal informasinya. Untuk menyelesaikan permasalahan tersebut, dilakukan penelitian yang menggunakan K-Means Clustering untuk mengelompokkan data rekam medis. Metode K-Means Clustering mengelompokkan data berdasarkan kedekatan dari suatu karakterisitik sampel data yang ada dengan menggunakan rumus jarak euclidean.

Dari hasil pengelompokan dengan 11.100 data uji, diperoleh 9 jenis penyakit endemi yaitu M54.5 (Low back pain), E11 (Diabetes mellitus tipe 2), K04.1 (Nekrosis pulpa), I15 (Hipertensi sekunder), Z82.3 (Riwayat stroke keluarga), G61 (Polineuropati inflamasi), A15.0 (TBC paru-paru), R50.9 (Demam, tidak spesifik), dan K80 (Cholelithiasis/batu empedu), dengan daerah endemi kecamatan Medan Selayang dan Medan Baru. Untuk menguji validitas pengelompokan dengan K-Means digunakan sebuah metode Sum of Squared Errors (SSE) yang menampilkan informasi error dari setiap cluster yang digunakan. Dari nilai SSE, diperoleh nilai error terendah pada cluster 3 yaitu sebesar 1,68497e+14. Dengan demikian, sistem pengelompokan data rekam medis ini menghasilkan cluster terbaik dengan menggunakan 3 cluster.

Kata kunci: Clustering, Rekam Medis, Data Mining, K-Means Clustering, Sum of Squared Errors

(8)

vi

MEDICAL RECORD DATA CLASSIFICATION TO KNOW ENDEMIC DISEASE IN A REGION USING K-MEANS CLUSTERING

ABSTRACT

Medical records are written evidence of the process of service provided to patients by doctors and other health workers. There are additional data on diseases that patients have at the hospital every day. However, the medical record data that is owned by the hospital is only a pile of statistics that have not been fully explored. To solve that problem, a study was conducted using K-Means Clustering to classify the medical record data. The K-Means Clustering method classifies data based on the proximity of the existing sample data characteristics using the Euclidean distance formula. From the results of classifying 11,100 sample data, 9 types of endemic disease were obtained, namely M54.5 (Low back pain), E11 (Type 2 diabetes mellitus), K04.1 (Necrosis of pulp), I15 (Secondary hypertension), Z82.3 (Family history of stroke), G61 (Inflammatory polyneuropathy), A15.0 (Tuberculosis of lung), R50.9 (Fever, unspecified), dan K80 (Cholelithiasis), with endemic areas are in Medan Selayang and Medan Baru districts. To test the validity of classifying with K-Means, a Sum of Squared Errors (SSE) method is used to displays error information from each cluster used. From the SSE value, the lowest error value obtained in cluster 3 is 1,68497e+14. Thus, the system of classifying medical record data produces the best cluster using 3 clusters.

Keywords: Clustering, Medical Records, Data Mining, K-Means Clustering, Sum of Squared Errors

(9)

DAFTAR ISI

Halaman

PERSETUJUAN i

PERNYATAAN ii

UCAPAN TERIMA KASIH iii

ABSTRAK v

ABSTRACT vi

DAFTAR ISI vii

DAFTAR TABEL ix

DAFTAR GAMBAR x

BAB 1 PENDAHULUAN

1.1. Latar Belakang 1

1.2. Rumusan Masalah 3

1.3. Batasan Masalah 3

1.4. Tujuan Penelitian 3

1.5. Manfaat Penelitian 3

1.6. Metodologi Penelitian 4

1.7. Sistematika Penulisan 5

BAB 2 LANDASAN TEORI

2.1. Rekam Medis 6

2.2. International Classification of Diseases (ICD) 6

2.3. Endemi 9

2.4. Data Mining 9

2.5. Clustering 11

2.6. K-Means Clustering 11

2.7. Mengukur Validitas Cluster 13

2.8. Penelitian Terdahulu 13

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

(10)

viii

3.1. Data yang Digunakan 17

3.2. Arsitektur Umum 19

3.3. Analisis Clustering K-Means 20

3.3.1. Menentukan Jumlah Cluster 20

3.3.2. Menentukan Pusat Cluster (Centroid) 21 3.3.3. Menghitung Jarak Data dengan Euclidean Distance 21 3.3.4. Alokasikan Data pada Cluster Terdekat 23

3.3.5. Hitung Pusat Cluster Baru 24

3.3.6. Hasil Clustering 28

3.4. Perancangan Sistem 30

3.4.1. Perancangan Flowchart K-Means Clustering 30 3.4.2. Perancangan Tampilan Antarmuka Pengguna 32

a) Perancangan Tampilan Home 32

b) Perancangan Tampilan Menu Petunjuk 32 c) Perancangan Tampilan Menu Input Data 33

d) Perancangan Tampilan Hasil 34

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Implementasi Sistem 36

4.1.1. Spesifikasi Perangkat Keras dan Lunak 36 4.1.2. Implementasi Perancangan Antarmuka 36

a) Tampilan Home 36

b) Tampilan Menu Petunjuk 37

c) Tampilan Menu Input Data 37

d) Tampilan Hasil 38

4.1.3. Prosedur Operasional 40

4.2. Pengujian Sistem 46

BAB 5 KESIMPULAN DAN SARAN

5.1. Kesimpulan 50

5.2. Saran 50

DAFTAR PUSTAKA 51

(11)

DAFTAR TABEL

Tabel 2.1. Pengodean Klasifikasi Penyakit Berdasarkan ICD-10 8

Tabel 2.2. Penelitian Terdahulu 14

Tabel 3.1. Sampel Dataset 18

Tabel 3.2. Inisialisasi Kode Penyakit 18

Tabel 3.3. Inisialisasi Kategori Umur 18

Tabel 3.4. Inisialisasi Kecamatan 19

Tabel 3.5. Hasil Perhitungan Jarak Iterasi Pertama 23

Tabel 3.6. Hasil Pengelompokan Iterasi Pertama 23

Tabel 3.7. Hasil Perhitungan Jarak Iterasi Kedua 27

Tabel 3.8. Hasil Cluster Iterasi Kedua 27

Tabel 3.9. Hasil Cluster Pertama 28

Tabel 3.10. Hasil Cluster Kedua 28

Tabel 3.11. Hasil Cluster Ketiga 28

Tabel 3.12. Hasil Cluster Keempat 29

Tabel 3.13. Hasil Cluster Kelima 29

Tabel 4.13. Perbandingan SSE dari Tiap-tiap Cluster 48

(12)

x

DAFTAR GAMBAR

Gambar 2.1. Bidang Ilmu Data Mining 9

Gambar 2.2. Tahapan KDD 11

Gambar 3.1. Arsitektur Umum 20

Gambar 3.2. Flowchart K-Means Clustering 31

Gambar 3.3. Rancangan Tampilan Halaman Home 32

Gambar 3.4. Rancangan Tampilan Halaman Petunjuk 33 Gambar 3.5. Rancangan Tampilan Halaman Input Data 33

Gambar 3.6. Rancangan Tampilan Halaman Hasil 34

Gambar 4.1. Tampilan Halaman Home 37

Gambar 4.2. Tampilan Halaman Petunjuk 37

Gambar 4.3. Tampilan Halaman Input Data 38

Gambar 4.4. Tampilan Halaman Hasil 40

Gambar 4.5. Tampilan Pilih Button 41

Gambar 4.6. Tampilan Pilih Menu Input Data 41

Gambar 4.7. Tampilan Input File 42

Gambar 4.8. Tampilan Pilih Button Proses 42

Gambar 4.9. Tampilan Pemrosesan Data 43

Gambar 4.10. Tampilan Visualisasi Cluster 43

Gambar 4.11. Tampilan Hasil Cluster K-Means 44

Gambar 4.12. Tampilan Detail Cluster 45

Gambar 4.13. Grafik SSE Tiap Cluster 49

(13)

BAB 1

PENDAHULUAN

1.1. Latar Belakang

Rumah sakit adalah institusi pelayanan kesehatan yang menyelenggarakan pelayanan kesehatan perorangan secara paripurna yang menyediakan pelayanan rawat inap, rawat jalan dan gawat darurat (Peraturan Menteri Kesehatan Republik Indonesia No.

340/MENKES/PER/III/2010). Rumah sakit mempunyai fungsi dan tujuan sarana pelayanan kesehatan yang menyelenggarakan kegiatan pelayanan berupa pelayanan rawat jalan, pelayanan rawat inap, pelayanan gawat darurat, pelayanan rujukan yang mencakup pelayanan rekam medis dan penunjang medis serta dimanfaatkan untuk pendidikan, pelatihan, dan penelitian bagi para tenaga kesehatan.

Rekam medis merupakan bukti tertulis mengenai proses pelayanan yang diberikan kepada pasien oleh dokter dan tenaga kesehatan lainnya. Dengan adanya bukti tertulis tersebut maka data rekam medis yang diberikan dapat dipertanggungjawabkan dengan tujuan sebagai penunjang tertib administrasi dalam upaya peningkatan pelayanan kesehatan rekam medis.

Rekam medis pada rumah sakit selalu mengalami penambahan data setiap hari.

Namun, data yang tersimpan hanya sebatas memberikan grafik atau statistik jumlah pasien yang berobat dengan penyakit yang dideritanya beserta laporan kepulangan pasien tersebut. Informasi dari data tersebut saat ini diperlukan oleh dinas kesehatan untuk melakukan kebijakan-kebijakan berupa tindakan pencegahan kepada masyarakat.

Mengenai pola dari kecenderungan penyakit yang diderita oleh masyarakat masih belum digali untuk dijadikan acuan apabila melakukan pencegahan penyakit (Kurniawan, et al. 2011).

Data mining atau yang dikenal dengan nama Knowledge discovery in databases (KDD) adalah serangkaian proses untuk menggali nilai tambah berupa informasi yang

(14)

2

selama ini tidak diketahui secara manual dari suatu basis data dengan melakukan penggalian pola-pola dari data dengan tujuan untuk memanipulasi data menjadi informasi yang lebih berharga, yang diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau menarik dari data yang terdapat dalam basis data.

Semakin besar data yang disimpan maka semakin kaya hasil ekstraksi data yang diperoleh, sehingga semakin banyak pembuktian hipotesis yang dihasilkan. Melalui data mining dapat dilakukan ekstraksi pengetahuan dan analisis data untuk menemukan hubungan tiap data, struktur data, pola, dan regularities (Sudriani, 2016). Dalam hal ini, data rekam medis pada rumah sakit diolah untuk menghasilkan informasi penyakit endemi pada suatu daerah agar dapat menentukan tindakan penanggulangan atau pencegahan terhadap penyakit. Metode yang digunakan dalam penelitian ini adalah metode clustering.

Clustering merupakan suatu metode pengelompokan berdasarkan ukuran kedekatan (kemiripan). Clustering berbeda dengan group, group merupakan kelompok yang memiliki kondisi yang sama. Cluster tidak harus selalu sama. Akan tetapi, pengelompokannya berdasarkan pada kedekatan dari suatu karakteristik sampel yang ada. Salah satunya dengan menggunakan rumus jarak euclidean (Satriyanto, 2011).

Pada penelitian ini, penulis mengajukan metode K-Means Clustering yang telah digunakan pada beberapa penelitian. Salah satu penelitian tersebut telah dilakukan oleh Nurfaizin et al. (2015). Penelitian tersebut menghasilkan informasi berupa cluster daerah endemi, endemi penyakitnya, jenis kelamin dan usia yang rentan terserang.

Penelitian lainnya dengan menggunakan metode clustering juga pernah dilakukan oleh Putri (2016) dan menghasilkan tiga cluster daerah penyakit yang banyak diderita oleh pasien di Kajen. Hasil pengujian pada sistem tersebut mempunyai akurasi sebesar 62%

dengan menggunakan data sebanyak 20% dari data training.

Berdasarkan penelitian terdahulu yang telah dipaparkan, penulis bermaksud untuk menerapkan metode clustering dalam pengelompokan data rekam medis untuk mengetahui penyakit endemi menggunakan metode K-Means Clustering.

Pengelompokan tersebut bertujuan untuk mengetahui penyakit endemi yang terdapat pada suatu daerah berdasarkan cluster yang diinput pada sistem. Hasil penyakit endemi yang didapatkan dari penerapan metode clustering ini diharapkan dapat dijadikan

(15)

sebagai acuan atau referensi bagi dinas kesehatan setempat untuk mengambil kebijakan dalam hal pencegahan penyakit.

Berdasarkan uraian latar belakang di atas, penulis mengajukan proposal penelitian yang berjudul ”Pengelompokan Data Rekam Medis Untuk Mengetahui Penyakit Endemi di Suatu Daerah Menggunakan K-Means Clustering.”

1.2. Rumusan Masalah

Setiap hari terjadi penambahan data penyakit yang dimiliki pasien di rumah sakit.

Namun, data rekam medis yang dimiliki oleh rumah sakit hanya menjadi tumpukan statistik yang belum digali secara maksimal informasinya. Dengan memanfaatkan data tersebut, dapat dihasilkan informasi tentang penyakit endemi di suatu daerah yang dapat dijadikan sebagai referensi kebijakan bagi pemerintah dan dinas kesehatan setempat.

1.3. Batasan Masalah

Untuk membatasi cakupan permasalahan, penulis menetapkan batasan masalah sebagai berikut:

1. Penelitian ini menggunakan data rekam medis dari salah satu rumah sakit di daerah kota Medan berupa data pasien rawat jalan dan rawat inap

2. Data kunjungan pasien yang digunakan mulai periode Mei 2017 sampai April 2018

3. Parameter yang digunakan dalam pengelompokan penyakit adalah jenis penyakit berdasarkan kode ICD (International Classification of Diseases), jenis kelamin, umur dan kecamatan

4. Data yang diinput pada sistem dalam bentuk format .csv (comma separated values)

5. Jumlah maksimal cluster yang dapat diinput ke dalam sistem sebanyak 10 cluster

1.4. Tujuan Penelitian

Penelitian ini bertujuan untuk mengelompokkan data rekam medis menggunakan metode K-Means Clustering untuk mengetahui penyakit endemi di suatu daerah.

1.5. Manfaat Penelitian

(16)

4

Manfaat yang diperoleh dari penelitian ini adalah sebagai berikut.

1. Mengetahui hasil pengelompokan data rekam medis berupa penyakit endemi di suatu daerah menggunakan K-Means Clustering

2. Informasi yang dihasilkan dapat digunakan oleh pihak dinas kesehatan setempat sebagai pertimbangan dalam mengambil keputusan lebih lanjut untuk menangani wabah penyakit sesuai daerah endemi

1.6. Metodologi Penelitian

Beberapa tahapan yang akan dilakukan pada penelitian ini adalah sebagai berikut:

1. Studi Literatur

Studi literatur dilakukan untuk mengumpulkan dan mempelajari informasi yang diperoleh dari buku, skripsi, jurnal, dan berbagai sumber referensi lain mengenai data mining, klasifikasi data penyakit, algoritma K-Means Clustering dan teknik penerapan untuk mencapai tujuan akhir dari penelitian.

2. Analisis Permasalahan

Pada tahap ini penulis menganalisis permasalahan dari informasi yang diperoleh dari tahap sebelumnya. Analisis masalah ditujukan untuk memperoleh metode dan algoritma terkait K-Means Clustering guna mengatasi masalah penelitian ini.

3. Perancangan Sistem

Pada tahap ini penulis merancang sistem yang sesuai berdasarkan hasil analisis pada tahap sebelumnya. Perancangan yang dilakukan pada tahap ini adalah perancangan arsitektur umum dan antarmuka sistem, serta pengumpulan data.

4. Implementasi

Pada tahap ini dilakukan implementasi dari hasil analisis dan perancangan yang telah dilakukan dengan pembangunan kode program menggunakan bahasa pemrograman Python.

5. Pengujian

Pada tahap ini dilakukan pengujian terhadap sistem pengelompokan data rekam medis yang menerapkan metode K-Means Clustering guna memastikan sistem telah berjalan sesuai dengan yang diharapkan.

6. Penyusunan Laporan

(17)

Pada tahap ini penulis melakukan penulisan laporan dari hasil evaluasi berdasarkan keseluruhan penelitian yang telah dilakukan.

1.7. Sistematika Penelitian

Sistematika penulisan dari skripsi ini terdiri dari lima bagian, yaitu sebagai berikut:

Bab 1: Pendahuluan

Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi penelitian, dan sistematika penulisan.

Bab 2: Landasan Teori

Bab ini berisi teori-teori yang digunakan untuk memahami permasalahan yang dibahas pada penelitian ini yaitu teori-teori yang berhubungan dengan rekam medis, data mining, clustering, K-Means, dan beberapa penelitian terdahulu.

Bab 3: Analisis dan Perancangan

Bab ini berisi analisis dan penerapan algoritma K-Means Clustering untuk pengelompokan serta membahas tampilan antarmuka sistem.

Bab 4: Implementasi dan Pengujian

Bab ini berisi tentang implementasi dari analisis dan perancangan sistem yang telah dilakukan pada bab sebelumnya dan membahas tentang pengujian terhadap sistem yang telah dibangun.

Bab 5: Kesimpulan dan Saran

Bab ini berisi kesimpulan dari keseluruhan uraian bab-bab sebelumnya dan saran-saran yang diajukan untuk pengembangan penelitian selanjutnya.

(18)

BAB 2

LANDASAN TEORI

2.1. Rekam Medis

Menurut Peraturan Menteri Kesehatan Nomor 269/MenKes/Per/III/2008, yang dimaksud rekam medis adalah berkas yang berisi catatan dan dokumen antara lain identitas pasien, hasil pemeriksaan, pengobatan yang telah diberikan, serta tindakan dan pelayanan lain yang telah diberikan kepada pasien. Catatan tersebut merupakan tulisan- tulisan yang dibuat oleh dokter atau dokter gigi mengenai tindakan-tindakan yang dilakukan kepada pasien dalam rangka palayanan kesehatan. Sedangkan menurut (Huffman, 1992) rekam medis adalah rekaman atau catatan mengenai siapa, apa, mengapa, bilamana pelayanan yang diberikan kepada pasien selama masa perawatan yang memuat pengetahuan mengenai pasien dan pelayanan yang diperolehnya serta memuat informasi yang cukup untuk menemukenali (mengidentifikasi) pasien, membenarkan diagnosis dan pengobatan serta merekam hasilnya.

Alur rekam medis terdiri atas beberapa hal, yaitu dimulai dari pendaftaran, distribusi, assembling, coding, entry, dan filing. Coding artinya menuliskan kode dari diagnosis yang dituliskan oleh dokter. Kode ini diambil dari buku kode diagnosis international atau yang dikenal dengan ICD (International Classification of Diseases).

Coding ini biasanya dikerjakan oleh petugas rekam medis. Setelah proses coding, biasanya dilanjutkan dengan entry kode diagnosis tersebut ke dalam komputer. Banyak rumah sakit yang tidak memahami pentingnya coding ini. Apabila coding tidak dilakukan tepat pada waktunya, maka berkas tidak rekam medis belum bisa disimpan dalam lemari rekam medis dan selanjutnya akan mempersulit proses pencarian berkas rekam medis tersebut ketika pasien berkunjung kembali.

2.2. International Classification of Diseases (ICD)

(19)

Klasifikasi penyakit adalah penyusunan ke dalam kelompok tertentu berdasarkan hubungan antara kelompok dengan sifat-sifat yang dimiliki. Klasifikasi penyakit dapat dilakukan berdasarkan agen penyebabnya, patologi penyakit, organ yang terserang, cara pengobatannya, cara penularannya, cara masuk, atau keluarnya penyakit dan faktor keterpaparan atau kepekaannya. Beberapa bentuk klasifikasi yang sering dipakai adalah penyakit menular dan tidak menular. Dalam penyakit juga terdapat atau memiliki rentan keseriusan, efek, durasi, keseriusan, dan keluasan berdasarkan hal tersebut dan variabel lainnya, penyakit juga diklasifikasikan menjadi tiga tingkatan yaitu akut, sub akut, dan kronis.

Untuk mempermudah klasifikasi penyakit, Indonesia menggunakan sistem informasi kesehatan yang lebih efektif dan efisien, yaitu dengan cara klasifikasi penyakit berdasarkan ICD (International Classification of Diseases).

International Classification of Diseases (ICD) adalah klasifikasi diagnostik standar internasional untuk semua epidemiologi umum, untuk penggunaan di beberapa manajemen kesehatan dan klinis. ICD digunakan untuk mengklasifikasikan penyakit dan masalah kesehatan lainnya dicatat pada berbagai jenis kesehatan dan catatan penting termasuk sertifikat kematian dan catatan kesehatan. Selain itu, ICD adalah suatu sistem klasifikasi penyakit dan beragam jenis tanda, simptoma, kelainan, komplain dan penyebab eksternal penyakit. Setiap kondisi kesehatan diberikan kategori dan kode.

ICD dipublikasikan oleh Organisasi Kesehatan Dunia (WHO) dan digunakan secara luas untuk morbiditas, mortalitas, sistem reimbursemen dan sebagai penunjang keputusan dalam kedokteran.

Dalam pengodean pada ICD menetapkan lebih dari 155.000 memungkinkan berbagai kode dan memungkinkan yang banyak berasal dari pelacakan diagnosis dan prosedur baru dengan perluasan yang signifikan pada kode-kode yang telah tersedia 17.000 pengodean pada ICD-9 dan ICD-10 yang mulai bekerja dari tahun 1983 dan dapat diselesaikan pada tahun 1992.

Fungsi ICD sebagai sistem klasifikasi penyakit dan masalah terkait kesehatan digunakan untuk kepentingan informasi statistik morbiditas dan mortalitas. Penerapan pengodean sistem ICD digunakan untuk, antara lain:

1) Mengindeks pencatatan penyakit dan tindakan di sarana pelayanan kesehatan 2) Masukan bagi sistem pelaporan diagnosis medis untuk mengklasifikasikan

penyakit

(20)

8

3) Memudahkan proses penyimpanan dan pengambilan data terkait diagnosis karakteristik pasien dan penyedia layanan

4) Untuk mempermudah sistem penagihan pembayaran biaya pelayanan kesehatan 5) Pelaporan nasional dan internasional morbiditas dan mortalitas

6) Menentukan bentuk pelayanan yang harus direncanakan dan dikembangkan sesuai kebutuhan zaman.

Berikut kelompok penyakit menurut ICD-10 berdasarkan situs resmi WHO https://icd.who.int/browse10/2016/en yaitu:

Tabel 2.1. Pengodean Klasifikasi Penyakit Berdasarkan ICD-10

Bab Blok Jenis Penyakit

I A00-B99 Penyakit infeksi dan parasit II C00-D48 Neoplasma

III D50-D89 Penyakit darah dan organ pembentuk darah termasuk ganguan sistem imun

IV E00-E90 Endokrin, nutrisi dan ganguan metabolik V F00-F99 Gangguan jiwa dan perilaku

VI G00-G99 Penyakit yang mengenai sistem syaraf VII H00-H59 Penyakit mata dan adneksa

VIII H60-H95 Penyakit telinga dan mastoid IX I00-I99 Penyakit pada sistem sirkulasi

X J00-J99 Penyakit pada sistem pernafasan XI K00-K93 Penyakit pada sistem pencernaan

XII L00-L99 Penyakit pada kulit dan jaringan subkutan XIII M00-M99 Penyakit pada sistem musculoskletal XIV N00-N99 Penyakit pada sistem saluran kemih dan

genital

XV O00-O99 Kehamilan dan kelahiran

XVI P00-P96 Keadaan yg berasal dari periode perinatal XVII Q00-Q99 Malformasi kongenital, deformasi dan

kelainan kromosom XVIII R00-R99

Gejala, tanda, kelainan klinik dan kelainan lab yang tidak ditemukan pada klasifikasi lain

XIX S00-T98 Keracunan, cedera dan beberapa penyebab eksternal

XX V01-Y98 Penyebab morbiditas dan kematian eksternal

(21)

XXI Z00-Z99

Faktor faktor yg memengaruhi status kesehatan dan hubungannya dengan jasa kesehatan

XXII U00-U99 Kode kegunaan khusus

2.3. Endemi

Endemi merupakan keberadaan suatu penyakit yang ditimbulkan akibat merebaknya wabah atau infeksi pada suatu wilayah atau daerah tertentu. Endemi pada umumnya menyerang berbagai populasi yang ada pada wilayah yang rawan dari penyakit.

Selain itu endemi juga dapat digunakan sebagai suatu alat yang mengukur serta menyatakan suatu insiden kasus baru penyakit yang ada dalam keadaan positif terserang infeksi atau wabah tersebut. Sehingga dapat dikatakan bahwa endemi merupakan suatu posisi yang digunakan untuk menentukan kasus suatu wilayah.

2.4. Data Mining

Data mining adalah analisis meninjau sekumpulan data untuk menemukan suatu hubungan yang tidak diduga dan meringkas data secara berbeda dengan sebelumnya yang bermanfaat dan dipahami oleh pemilik data (Larose, 2005).

Data mining mewarisi banyak aspek dan teknik dari berbagai bidang ilmu. Pada Gambar 2.1 ditunjukkan bahwa data mining memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistic, database serta information retrieval (Pramudiono, 2006).

Gambar 2.1. Bidang Ilmu Data Mining (Pramudiono, 2006)

(22)

10

Data mining adalah bagian dari Knowledge Discovery in Database (KDD).

Knowledge Discovery in Database (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola atau informasi data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Secara garis besar proses KDD terdiri atas beberapa tahap (Fayyad, 1996).

1. Data Selection

Pemilihan (seleksi) data dilakukan dari suatu kumpulan data operasional.

Sebelum tahap penggalian informasi dalam KDD dimulai proses ini perlu dilakukan. Data hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Data Cleaning

Proses cleaning perlu dilakukan pada data yang menjadi fokus KDD sebelum proses data mining dapat dilakukan. Proses cleaning melingkupi antara lain membuang data yang memiliki duplikasi, data yang tidak konsisten diperiksa, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (typo), juga dilakukan proses enrichment, yaitu proses “memperkaya”

data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Data Transformation

Proses transformasi pada data yang telah dipilih adalah coding, sehingga sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data Mining

Data mining merupakan proses untuk mencari suatu pola atau informasi yang menarik dalam data yang terpilih dengan teknik atau metode tertentu.

Data mining memiliki teknik, metode, atau algoritma dalam sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evaluation

Interpretation merupakan proses untuk menampilkan pola informasi yang dihasilkan dari proses data mining oleh pihak yang berkepentingan. Tahap

(23)

ini meliputi pemeriksaan terhadap pola atau informasi yang ditemukan agar tidak bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

Gambar 2.2. Tahapan KDD (Fayyad, 1996) 2.5. Clustering

Clustering adalah metode penganalisaan data untuk menemukan suatu kelompok- kelompok dari sekumpulan objek atau individu yang memiliki karakteristik yang sama.

Clustering merupakan salah satu metode dalam data mining. Di dalam clustering terdapat dua pendekatan. Dua pendekatan utama adalah clustering dengan pendekatan partisi dan clustering dengan pendekatan hirarki (Oliveira, et al. 2007). Clustering dengan pendekatan partisi (partition-based clustering) adalah mengelompokkan data dengan memilah-milah data yang dianalisa ke dalam cluster yang ada. Clustering dengan pendekatan hirarki (hierarchical clustering) adalah mengelompokkan data dengan membuat hirarki berupa dendogram yaitu data yang mirip ditempatkan pada hirarki yang berdekatan sedangkan yang tidak diletakkan para hirarki yang berjauhan.

2.6. K-Means Clustering

Metode K-Means pertama kali diperkenalkan oleh MacQueen JB pada tahun 1976. K- Means merupakan salah satu metode clustering non hirarki yang berusaha mempartisi data yang ada ke dalam bentuk satu atau lebih cluster. Metode ini mempartisi data ke dalam bentuk satu atau lebih cluster/kelompok, sehingga data yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster yang sama dan data yang memiliki karakteristik berbeda dikelompokkan ke dalam kelompok lain (Agusta, 2007).

(24)

12

Algoritma K-Means merupakan sebuah metode sederhana untuk membagi suatu kumpulan data dalam suatu angka spesifik dari cluster, yaitu k. Algoritma atau metode K-Means ditemukan oleh beberapa peneliti dengan disiplin ilmu berbeda-beda yaitu oleh Lloyd (1957, 1982), Forgery (1965), Friedman dan Rubin (1967), dan terakhir adalah McQueen (1967) dalam (Wu, et al. 2008). Disebutkan bahwa metode K- Means adalah metode yang cepat dan efisien yang dapat digunakan dalam clustering data (Larose, 2005).

Menurut Sarwono (2011), algoritma K-Means adalah sebagai berikut:

1. Menentukan k sebagai jumlah cluster yang ingin dibentuk

2. Membangkitkan nilai random untuk pusat cluster awal (centroid) sebanyak k 3. Menghitung jarak setiap data input terhadap masing-masing centroid

menggunakan rumus jarak Euclidean (Euclidean Distance) hingga ditemukan jarak yang paling dekat dari setiap data dengan centroid.

Berikut adalah persamaan Euclidean Distance:

𝑑(𝑥𝑖, 𝜇𝑗) = √(𝑥𝑖 − 𝜇𝑗)2⋯ (2.1)

dimana:

𝑥𝑖 : data kriteria

𝜇𝑗 : centroid pada cluster ke-j

4. Mengklasifikasikan setiap data berdasarkan kedekatannya dengan centroid (jarak terkecil)

5. Memperbaharui nilai centroid. Nilai centroid baru diperoleh dari rata-rata cluster yang bersangkutan dengan rumus:

𝜇(𝑡 + 1) = 1

𝑁𝑠𝑗𝑗=𝑠𝑗𝑋𝑗⋯ (2.2)

dimana:

𝜇(𝑡 + 1) : centroid baru pada iterasi ke (𝑡 + 1) 𝑁𝑠𝑗 : banyak data pada cluster 𝑠𝑗

6. Melakukan perulangan dari langkah 2 hingga 5 hingga anggota tiap cluster tidak ada yang berubah

7. Jika langkah 6 telah terpenuhi, maka nilai pusat cluster (𝜇𝑗) pada iterasi terakhir akan digunakan sebagai parameter untuk menentukan klasifikasi data

(25)

2.7. Mengukur Validitas Cluster

Pengukuran numerik yang diterapkan untuk menilai berbagai aspek validitas cluster dikelompokkan menjadi sebagai berikut (Jain & Dubes, 1988):

1. Indeks Eksternal

Indeks eksternal digunakan untuk mengukur sejauh mana cluster label cocok dengan label kelas yang disediakan secara eksternal. Contohnya Entropy.

2. Indeks Internal

Indeks internal digunakan untuk mengukur validitas pengelompokan tanpa memperhatikan informasi eksternal. Contohnya Sum of Squared Errors (SSE).

3. Relative Index

Relative index digunakan untuk membandingkan dua clustering yang berbeda.

Dalam penelitian ini, penulis menggunakan validasi internal yaitu SSE (Sum of Squared Error) untuk melakukan uji akurasi. Pada Sum of Squared Error, semakin kecil nilai Sum of Squared Error yang dihasilkan maka akan semakin baik pula dalam pembentukan cluster. Rumus Sum of Squared Error yang digunakan pada persamaan (2.3).

(2.3)

dimana:

Xi adalah jarak data x di indeks i

μk adalah rata-rata semua jarak data xi di cluster k

2.8. Penelitian Terdahulu

Beberapa penelitian yang telah dilakukan mengenai pengelompokan data penyakit di antaranya dilakukan oleh Kurniawan et al. (2011). Penelitian tersebut menghasilkan informasi tingkat kecenderungan penyakit yang diderita oleh sekelompok masyarakat dalam wilayah tertentu dengan menggunakan beberapa atribut. Dari hasil pengujian keseluruhan data dengan memakai cross calidation 5 fold, didapat akurasi pengujian sebesar 70%.

(26)

14

Penelitian tentang penyakit juga dilakukan oleh Nurfaizin et al. (2015). Penulis membuat implementasi persebaran pasien rawat inap untuk menampilkan informasi pola daerah endemi penyakit. Data yang diproses berupa data alamat, kode penyakit, usia dan jenis kelamin.

Penelitian berkaitan lainnya dilakukan oleh Wardhani (2016). Penelitian tersebut menghasilkan informasi mengenai pengelompokan penyakit akut dan tidak akut yang banyak diderita oleh pasien pada puskesmas Kajen Pekalongan.

Penelitian mengenai implementasi K-Means dilakukan oleh Putri (2016) untuk mengelompokkan penyakit pasien berdasarkan penyakit di suatu daerah tertentu sebanyak 1000 data pasien dengan inputan variabel umur, kode penyakit dan lama mengidap penyakit. Hasil dari pengujian sistem menghasilkan tiga cluster.

Penelitian Irtawaty (2017) menerapkan K-Means untuk mengklasifikasikan penyakit ginjal menjadi 5 cluster. Parameter uji dalam penelitian tersebut ada 3 yaitu ureum, kritinen, dan GFR dan menggunakan data uji 10 sampel data pasien. Cluster- nya terdiri dari kondisi ginjal normal, gejala ginjal stadium 1, stadium 2, stadium 3 dan stadium 4. Tingkat akurasi pengelompokan penyakit ginjal menggunakan metode K- Means dalam penelitian tersebut mencapai 90%.

Penelitian selanjutnya dilakukan oleh Muningsih (2017) untuk memetakan atau membuat segmentasi pelanggan menjadi beberapa cluster atau kelompok. Untuk mengatasi kelemahan K-Means dalam penentuan jumlah cluster, maka digunakan metode Elbow untuk mendapatkan perbandingan jumlah cluster yang ditambah dengan cara menghitung SSE (Sum of Square Error) dari masing-masing nilai cluster. Dari nilai SSE yang diperoleh diketahui bahwa jumlah cluster terbaik adalah 3. Dengan pengetahuan tersebut maka akan dapat dilakukan strategi pemasaran yang lebih baik.

Tabel 2.2. Penelitian Terdahulu

No Peneliti Metode Keterangan

1 Kurniawan, et al. 2011

Klasifikasi dengan Decision Tree J48

Penelitian ini mengklasifikasikan data rekam medis dengan 4 atribut yaitu jenis kelamin, wilayah, umur dan kelompok ICD. Dari hasil keseluruhan data diperoleh tingkat akurasi sebesar 70%.

(27)

Tabel 2.2. Penelitian Terdahulu (Lanjutan) 2 Nurfaizin, et al.

2015

K-Means Clustering Penelitian tersebut menggunakan 5 cluster dan menghasilkan informasi berupa cluster daerah endemi, endemi penyakitnya, jenis kelamin dan usia yang rentan terserang

3 Wardhani, 2016 K-Means Clustering Penelitian ini menghasilkan informasi jumlah cluster sebanyak 2 buah dengan jumlah cluster akut sebanyak 376 item dan cluster tidak akut sebanyak 624 item dengan total jumlah data sebanyak 1000

4 Putri, 2016 K-Means Clustering Dari hasil pengujian menggunakan 1000 data dihasilkan 3 cluster yaitu C1 (Kecamatan Bojong), C2 (Kecamatan Karanganyar) dan C3 (Kecamatan Kajen). C1 banyak diderita oleh pasien penyakit Commond Cold, C1 banyak diderita oleh pasien penyakit gangguan perkembangan dan erupsi gigi, dan C3 banyak diderita oleh pasien penyakit Pneumonia. Hasil dari uji sistem

menggunakan 20% data yang diperoleh dari tempat penelitian menghasilkan akurasi sebesar 62%.

5 Irtawaty, 2017 K-Means Clustering Penelitian ini mengelompokkan penyakit ginjal menjadi 5 cluster.

Tingkat akurasi pengelompokan penyakit ginjal menggunakan metode K-Means dalam penelitian tersebut mencapai 90%.

6 Muningsih, 2017

K-Means dengan Elbow

Penelitian ini bertujuan untuk memetakan atau membuat segmentasi pelanggan menjadi beberapa cluster atau kelompok. Dari nilai SSE yang dihitung didapatkan bahwa jumlah cluster terbaik adalah 3, dimana jumlah anggota cluster 1 adalah 47 pelanggan, cluster 2 memiliki 18 pelanggan dan cluster 3 memiliki 8 pelanggan.

(28)

16

Perbedaan penelitian yang dilakukan penulis dengan penelitian terdahulu adalah penelitian terdahulu memberikan informasi pengelompokkan dengan cluster yang digunakan maksimal sebanyak 5. Sedangkan penelitian yang dilakukan penulis memberikan informasi pengelompokan berdasarkan hasil cluster kode penyakit, umur, jenis kelamin dan kecamatan sampai dengan 9 cluster. Penelitian yang dilakukan oleh Nurfaizin, et al. (2015) menghasilkan informasi berupa cluster daerah endemi, endemi penyakitnya, jenis kelamin dan usia yang rentan terserang, namun tidak memberikan informasi validitas akurasi dari cluster yang digunakan. Penelitian yang dilakukan Putri (2016) menggunakan 1000 data dan dihasilkan 3 cluster berdasarkan parameter kecamatan saja.

Penelitian yang dilakukan penulis menggunakan data sebanyak 15.941 data setelah proses cleaning dan memberikan validitas cluster menggunakan metode Sum of Squared Errors (SSE).

(29)

BAB 3

ANALISIS DAN PERANCANGAN SISTEM

Bab ini akan membahas mengenai analisis dan perancangan sistem menggunakan algoritma K-Means Clustering untuk mengelompokkan data rekam medis. Pada tahap analisis akan dibahas mengenai analisis terhadap data yang digunakan serta analisis terhadap metode yang digunakan untuk setiap tahap pemrosesan data. Pada tahap perancangan akan dibahas mengenai perancangan flowchart sistem serta tampilan antarmuka sistem.

3.1. Data yang Digunakan

Data yang digunakan dalam penelitian ini adalah data rekam medis dari salah satu rumah sakit yang ada di kota Medan dari tahun 2017 sampai 2018 sebanyak 27.186 record. Variabel atau parameter yang digunakan dari data tersebut berupa data kode penyakit, umur, jenis kelamin dan kecamatan. Data kode penyakit merupakan data kode berdasarkan standar ICD (International Classification of Diseases). Data umur diubah ke dalam jenjang umur dan dikategorikan menjadi tiga kelompok berdasarkan standar WHO, yaitu kelompok balita dan anak-anak (15 ≤), muda dan dewasa (15 s/d 50), dan tua (≥ 50). Data jenis kelamin berupa integer terdiri dari 1 dan 2, dimana 1 merupakan data untuk jenis kelamin Laki-laki dan 2 untuk jenis kelamin Perempuan. Total data yang digunakan setelah melalui proses cleaning sebanyak 15.941 record.

Sampel data rekam medis yang digunakan dapat dilihat pada Tabel 3.1.

(30)

18

Tabel 3.1. Sampel Dataset

Code age_category gender district_name

A15.0 Muda dan Dewasa 2 MEDAN BARU

M54.5 Tua 2 MEDAN SELAYANG

E11 Tua 1 MEDAN KOTA

F20.0 Muda dan Dewasa 2 MEDAN DENAI

E11 Tua 1 MEDAN SELAYANG

E11 Muda dan Dewasa 1 MEDAN JOHOR

G61 Tua 1 MEDAN TUNTUNGAN

E11 Tua 2 MEDAN DENAI

Z96.65 Tua 2 MEDAN POLONIA

C82.1 Tua 2 MEDAN SUNGGAL

Agar data rekam medis tersebut dapat diolah menggunakan K-Means Clustering, maka data yang berjenis non-numerik seperti kode penyakit, umur dan kecamatan harus diinisialisasikan terlebih dahulu dalam bentuk numerik atau angka.

Pada sistem, data non-numerik diubah menggunakan fungsi label encoder (library dari Python) sehingga data-data non-numerik berubah menjadi bentuk angka yang dimulai dari 0. Hasil inisialisasi kode penyakit dapat diketahui pada Tabel 3.2.

Tabel 3.2. Inisialisasi Kode Penyakit code Inisialisasi

A00 0

B39.0 131

C26 195

J45 849

K02 881

M54.5 1181

N20 1249

O09 1347

R19.7 1515

Z98.0 1802

Terdapat sebanyak 1802 jenis kode penyakit yang telah diinisialisasikan dan akan diproses pada sistem. Adapun hasil inisialisasi umur yang telah diubah ke bentuk jenjang dapat dilihat pada Tabel 3.3.

Tabel 3.3. Inisialisasi Kategori Umur age_category Inisialisasi

(31)

Balita dan Anak-anak 0

Muda dan Dewasa 1

Tua 2

Hasil inisialisasi kecamatan dilihat pada Tabel 3.4.

Tabel 3.4. Inisialisasi Kecamatan district_name Inisialisasi

MEDAN AMPLAS 0

MEDAN AREA 1

MEDAN BARAT 2

MEDAN BARU 3

MEDAN BELAWAN 4

MEDAN DELI 5

MEDAN DENAI 6

MEDAN HELVETIA 7

MEDAN JOHOR 8

MEDAN KOTA 9

MEDAN LABUHAN 10

MEDAN MAIMUN 11

MEDAN MARELAN 12

MEDAN PERJUANGAN 13

MEDAN PETISAH 14

MEDAN POLONIA 15

MEDAN SELAYANG 16

MEDAN SUNGGAL 17

MEDAN TEMBUNG 18

MEDAN TIMUR 19

MEDAN TUNTUNGAN 20

Terdapat 21 data kecamatan yang telah diinisialisasi sesuai dengan jumlah kecamatan yang ada di Medan. Inisialisasi dilakukan dengan mengurutkan kecamatan tersebut sesuai dengan abjad.

3.2. Arsitektur Umum

Metode yang diajukan untuk clustering data rekam medis pada penelitian ini terdiri dari beberapa tahapan. Tahapan tersebut dimulai dengan melakukan input data, lalu data tersebut diproses di tahap data preprocessing. Pada tahap data preprocessing, dilakukan beberapa teknik berupa selection, cleaning, dan transformation. Teknik selection bertujuan untuk mengambil data yang relevan dengan penelitian. Cleaning bertujuan

(32)

20

untuk menghilangkan noise dan data yang inkonsisten, dan transformation bertujuan untuk memodelkan data agar sesuai dengan analisis yang diharapkan dan format data yang diperlukan oleh algoritma. Dalam tahap transformation, dilakukan strategi discretization, dimana nilai-nilai baku dari atribut numerik (pada data umur) akan diganti dengan label konseptual berdasarkan standar WHO. Tahapan selanjutnya yaitu tahap clustering. Tahap pengelompokan ini dimulai dengan menentukan jumlah cluster, lalu menentukan pusat cluster (centroid), menghitung jarak antar data ke pusat cluster dengan persamaan euclidean distance. Kemudian mengalokasikan setiap data ke centroid terdekat. Setelah semua tahap telah dilakukan maka didapatlah output berupa visualisasi dan data hasil cluster penyakit endemi dari suatu daerah. Adapun arsitektur umum yang menggambarkan setiap tahapan metode yang digunakan dalam penelitian ini ditunjukkan pada Gambar 3.1.

Gambar 3.1. Arsitektur Umum

3.3. Analisis Clustering K-Means

Pada tahap ini dilakukan analisis dengan clustering menggunakan K-Means. Tahapan analisis yang akan dilakukan yaitu:

3.3.1. Menentukan Jumlah Cluster

Tahap awal dalam proses clustering adalah menentukan jumlah cluster yang diinginkan. Pada sistem pengelompokan data rekam medis akan digunakan 5 cluster

(33)

yaitu cluster pertama (C0), cluster kedua (C1), cluster ketiga (C2), cluster keempat (C3), cluster kelima (C4).

3.3.2. Menentukan Pusat Cluster (Centroid)

Pada tahap ini ditentukan nilai pusat cluster (centroid) awal secara random dari data yang telah diinput. Tentukan centroid dari masing-masing variabel data, yaitu centroid pertama kode penyakit, centroid kedua umur, centroid ketiga jenis kelamin dan centroid keempat kecamatan.

C0 = (384; 2; 1; 9) C1 = (554; 2; 1; 20) C2 = (510; 1; 1; 16) C3 = (250; 2; 2; 16) C4 = (659; 2; 2; 0)

3.3.3. Menghitung Jarak Data dengan Euclidean Distance

Hitung jarak dari setiap data ke setiap pusat cluster yang ada dengan euclidean distance sehingga ditemukan jarak terdekat dari setiap data ke centroid. Perhitungan dengan euclidean distance dapat digunakan dengan persamaan 3.1:

𝑑(𝑥𝑖, 𝜇𝑗) = √(𝑥𝑖𝑎 − 𝜇𝑗𝑎)2+ (𝑥𝑖𝑏 − 𝜇𝑗𝑏)2 ⋯ (3.1) Dengan ketentuan sebagai berikut:

𝑥𝑖 : data kriteria

𝜇𝑗 : centroid pada cluster ke-j

Jarak data pertama ke pusat cluster pertama

𝑑10 = √(21 − 384)2+ (1 − 2)2+ (2 − 1)2+ (3 − 9)2

= 363,0523

Jarak data pertama ke pusat cluster kedua

𝑑11 = √(21 − 554)2+ (1 − 2)2+ (2 − 1)2+ (3 − 20)2

= 533,2729

Jarak data pertama ke pusat cluster ketiga

𝑑12 = √(21 − 510)2+ (1 − 1)2+ (2 − 1)2+ (3 − 16)2

(34)

22

= 489,1739

Jarak data pertama ke pusat cluster keempat

𝑑13 = √(21 − 250)2+ (1 − 2)2+ (2 − 2)2+ (3 − 16)2

= 229,3709

Jarak data pertama ke pusat cluster kelima

𝑑14 = √(21 − 659)2+ (1 − 2)2+ (2 − 2)2+ (3 − 0)2

= 638,0078

Jarak data kedua ke pusat cluster pertama

𝑑20 = √(1181 − 384)2+ (2 − 2)2+ (2 − 2)2+ (16 − 0)2

= 797,0314

Jarak data kedua ke pusat cluster kedua

𝑑21 = √(1181 − 554)2+ (2 − 2)2+ (2 − 1)2+ (16 − 20)2

= 627,0136

Jarak data kedua ke pusat cluster ketiga

𝑑22 = √(1181 − 510)2+ (2 − 1)2+ (2 − 1)2+ (16 − 16)2

= 671,0015

Jarak data kedua ke pusat cluster keempat

𝑑23 = √(1181 − 250)2+ (2 − 2)2+ (2 − 2)2+ (16 − 16)2

= 931

Jarak data kedua ke pusat cluster kelima

𝑑24 = √(1181 − 659)2+ (2 − 2)2+ (2 − 2)2+ (16 − 0)2

= 522,2452

Jarak data ketiga ke pusat cluster pertama

𝑑30 = √(384 − 384)2+ (2 − 2)2+ (1 − 1)2+ (9 − 9)2

= 0

Jarak data ketiga ke pusat cluster kedua

(35)

𝑑31 = √(384 − 554)2+ (2 − 2)2+ (1 − 1)2+ (9 − 20)2

= 170,3555

Jarak data ketiga ke pusat cluster ketiga

𝑑32 = √(384 − 510)2+ (2 − 1)2+ (1 − 1)2+ (9 − 16)2

= 126,1983

Jarak data ketiga ke pusat cluster keempat

𝑑33 = √(384 − 250)2+ (2 − 2)2+ (1 − 2)2+ (9 − 16)2

= 134,1864

Jarak data ketiga ke pusat cluster kelima

𝑑34 = √(384 − 659)2+ (2 − 2)2+ (1 − 2)2+ (9 − 0)2

= 126,1983

Hasil perhitungan jarak awal pada iterasi pertama dapat dilihat pada Tabel 3.5.

Tabel 3.5. Hasil Perhitungan Jarak Iterasi Pertama

Data ke- C0 C1 C2 C3 C4

1 363,0523 533,2729 489,1738 229,3709 638,0078 2 797,0314 627,0136 671,0015 931 522,2452 3 0 170,3555 126,1983 134,1864 275,1491 4 68,08083 102,966 58,86425 202,2498 207,0894

5 7 170,0471 126,004 134,0037 275,4669

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 166,3039 336,003 292,0188 32,14032 441,4091

3.3.4. Alokasikan Data pada Cluster Terdekat

Setelah menghitung jarak pada iterasi pertama seperti pada Tabel 3.5, setiap data akan dialokasikan ke suatu cluster berdasarkan jarak terdekat dari pusat cluster-nya. Pada data pertama diperoleh jarak terdekat dengan pusat cluster keempat, maka data tersebut akan menjadi anggota cluster keempat. Hasil pengelompokan data pada iterasi pertama dapat dilihat pada Tabel 3.6:

Tabel 3.6. Hasil Pengelompokan Data Iterasi Pertama

Data ke- C0 C1 C2 C3 C4

1 *

2 *

(36)

24

3 *

4 *

5 *

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 *

3.3.5. Hitung Pusat Cluster Baru

Menghitung pusat cluster baru dilakukan dengan cara menghitung nilai rata-rata dari masing-masing kriteria seluruh anggota yang menjadi anggota masing-masing cluster.

Untuk menghitung pusat cluster baru digunakan persamaan 3.2:

𝜇 =𝑛𝑖=1𝑥𝑖

𝑛 (3.2)

Dengan ketentuan sebagai berikut:

𝜇 : centroid pada cluster 𝑥𝑖 : objek ke-𝑖

𝑛 : banyaknya objek/jumlah objek yang menjadi anggota cluster

a. Pada cluster pertama terdapat 1290 data, sehingga perhitungan cluster barunya sebagai berikut:

C01 =384+384+384+384+384+384+⋯+384

1290 =493887

1290 = 382,8581 C02 =2+2+1+2+1+2+⋯+1

1290 =2136

1290= 1,655814 C03 =1+1+1+2+2+1+⋯+1

1290 =2013

1290= 1,560465 C04 =9+16+8+6+3+8+⋯+20

1290 =14786

1290 = 11,46202

b. Pada cluster kedua terdapat 614 data, sehingga perhitungan cluster barunya sebagai berikut:

C11 = 554+558+558+563+554+554+⋯+568

614 =349119

614 = 568,5977 C12 = 2+2+2+2+2+2+⋯+2

614 = 1054

614 = 1,716612 C13 = 1+2+1+1+1+2+⋯+1

614 = 972

614= 1,583062 C14 = 20+16+7+16+16+3+⋯+3

614 =6913

614 = 11,25896

(37)

c. Pada cluster ketiga terdapat 572 data, sehingga perhitungan cluster barunya sebagai berikut:

C21 =452+510+510+510+510+500+⋯+471

572 =280979

572 = 491,222 C22 =1+1+1+2+1+2+⋯+2

572 =714

572= 1,248252 C23 =2+2+1+1+2+2+⋯+1

572 =879

572= 1,536713 C24 =6+8+16+16+17+16+⋯+16

572 =6454

572 = 11,28322

d. Pada cluster keempat terdapat 1834 data, sehingga perhitungan cluster barunya sebagai berikut:

C31 =21+250+250+131+131+0+⋯+218

1834 =274147

1834 = 149,4804 C32 =1+2+2+2+2+2+⋯+2

1834 =2526

1834= 1,377317 C33 =2+2+2+2+1+1+⋯+2

1834 =2624

1834= 1,430752 C34 =3+17+16+16+20+3+⋯+19

1834 = 21388

1834 = 11,66194

e. Pada cluster kelima terdapat 11631 data, sehingga perhitungan cluster barunya sebagai berikut:

C41 =1181+1798+698+1693+620+1181+⋯+892

11631 =11196121

11631 = 962,6104 C42 =2+2+2+2+2+2+⋯+0

11631 =17328

11631 = 1,489812 C43 =2+2+2+2+1+2+⋯+1

11631 =18365

11631 = 1,57897 C44 =16+15+16+17+19+3+⋯+8

11631 = 136100

11631 = 11,70149 Sehingga didapat nilai hasil pusat cluster (centroid) baru yaitu:

C0 = (382,8581; 1,655814; 1,560465; 11,46202) C1 = (568,5977; 1,716612; 1,583062; 11,25896) C2 = (491,222; 1,248252; 1,536713; 11,28322) C3 = (149,4804; 1,377317; 1,430752; 11,66194) C4 = (962,6104; 1,489812; 1,57897; 11,70149)

(38)

26

Setelah itu, lakukan iterasi kedua dengan menghitung jarak setiap data yang ada terhadap setiap pusat cluster yang baru dengan persamaan euclidean distance (3.1) dan diperoleh:

Jarak data pertama ke pusat cluster pertama

𝑑10= √(21 − 382,8581)2+ (1 − 1,655814)2+ (2 − 1,560465)2+ (3 − 11,46202)2= 361,9579

Jarak data pertama ke pusat cluster kedua

𝑑11= √(21 − 568,5977)2+ (1 − 1,716612)2+ (2 − 1,583062)2+ (3 − 11,25896)2= 547,6606

Jarak data pertama ke pusat cluster ketiga

𝑑12= √(21 − 491,222)2+ (1 − 1,248252)2+ (2 − 1,536713)2+ (3 − 11,28322)2= 470,2952

Jarak data pertama ke pusat cluster keempat

𝑑13= √(21 − 149,4804)2+ (1 − 1,377317)2+ (2 − 1,430752)2+ (3 − 11,66194)2= 128,7739

Jarak data pertama ke pusat cluster kelima

𝑑14= √(21 − 962,6104)2+ (1 − 1,489812)2+ (2 − 1,57897)2+ (3 − 11,70149)2= 941,6508

Jarak data kedua ke pusat cluster pertama

𝑑20= √(1181 − 382,8581)2+ (2 − 1,655814)2+ (2 − 1,560465)2+ (16 − 11,46202)2= 798,155

Jarak data kedua ke pusat cluster kedua

𝑑21= √(1181 − 568,5977)2+ (2 − 1,716612)2+ (2 − 1,583062)2+ (16 − 11,25896)2= 612,4209

Jarak data kedua ke pusat cluster ketiga

𝑑22= √(1181 − 491,222)2+ (2 − 1,248252)2+ (2 − 1,536713)2+ (16 − 11,28322)2= 689,7947

Jarak data kedua ke pusat cluster keempat

𝑑23= √(1181 − 149,4804)2+ (2 − 1,377317)2+ (2 − 1,430752)2+ (16 − 11,66194)2= 1031,529

Jarak data kedua ke pusat cluster kelima

𝑑24= √(1181 − 962,6104)2+ (2 − 1,489812)2+ (2 − 1,57897)2+ (16 − 11,70149)2= 218,4329

Jarak data ketiga ke pusat cluster pertama

𝑑30= √(384 − 382,8581)2+ (2 − 1,655814)2+ (1 − 1,560465)2+ (9 − 11,46202)2= 2,792501

Jarak data ketiga ke pusat cluster kedua

𝑑31= √(384 − 568,5977)2+ (2 − 1,716612)2+ (1 − 1,583062)2+ (9 − 11,25896)2= 184,6127

Jarak data ketiga ke pusat cluster ketiga

𝑑32= √(384 − 491,222)2+ (2 − 1,248252)2+ (1 − 1,536713)2+ (9 − 11,28322)2= 107,2503

(39)

Jarak data ketiga ke pusat cluster keempat

𝑑33= √(384 − 149,4804)2+ (2 − 1,377317)2+ (1 − 1,430752)2+ (9 − 11,66194)2= 234,5359

Jarak data ketiga ke pusat cluster kelima

𝑑34= √(384 − 962,6104)2+ (2 − 1,489812)2+ (1 − 1,57897)2+ (9 − 11,70149)2= 578,6172

Hasil perhitungan di atas dapat dilihat pada Tabel 3.7

Tabel 3.7. Hasil Perhitungan Jarak Iterasi Kedua

Data ke- C0 C1 C2 C3 C4

1 361,9579 547,6606 470,2952 128,7739 941,6508 2 798,155 612,4209 689,7974 1031,529 218,4329 3 2,7992501 184,6127 107,2503 234,5359 578,6172 4 69,3618 116,7192 39,57972 302,5734 510,6426 5 4,72544 184,6597 107,3297 234,5609 578,6269

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 165,0313 350,6835 273,3324 68,91658 744,6465 Dari Tabel 3.7 di atas, pilih cluster yang paling kecil sehingga diperoleh hasil seperti pada Tabel 3.8 berikut ini.

Tabel 3.8. Hasil Cluster Iterasi Kedua

Data ke- C0 C1 C2 C3 C4

1 *

2 *

3 *

4 *

5 *

⋮ ⋮ ⋮ ⋮ ⋮ ⋮

15941 *

Pada Tabel 3.8 di atas dapat dibandingkan dengan Tabel 3.6 bahwa keanggotaan cluster masih berubah. Oleh karena itu, iterasi dilanjutkan sampai keanggotaan cluster sama dengan iterasi sebelumnya. Pada percobaan kali ini proses akan berhenti pada iterasi ke-5. Adapun titik pusat cluster pada iterasi ke-5 adalah:

C0 = (351,5916; 1,634792; 1,504592; 11,58779) C1 = (798,6612; 1,514053; 1,565274; 11,72748) C2 = (547,6394; 1,489175; 1,568336; 11,29973) C3 = (87,08287; 1,283665; 1,45498; 11,58805)

(40)

28

C4 = (1320,799; 1,440556; 1,604595; 11,6631) 3.3.6. Hasil Clustering

Proses iterasi berakhir pada iterasi ke-5 dan menghasilkan 1883 data pada cluster pertama, 7689 data pada cluster kedua, 1992 data pada cluster ketiga, 1245 data pada cluster keempat dan 3132 data pada cluster kelima. Data masing-masing cluster dapat dilihat pada Tabel 3.9, Tabel 3.10, Tabel 3.11, Tabel 3.12, dan Tabel 3.13.

Tabel 3.9. Hasil Cluster Pertama

No Data ke- Cluster

1 3 Cluster 0

2 5 Cluster 0

3 6 Cluster 0

4 8 Cluster 0

5 10 Cluster 0

⋮ ⋮ ⋮

1883 15937 Cluster 0

Tabel 3.9. menunjukkan hasil cluster yang diperoleh setelah iterasi selesai dan diperoleh sebanyak 1883 data yang terdapat pada cluster pertama.

Tabel 3.10. Hasil Cluster Kedua

No Data ke- Cluster

1 11 Cluster 1

2 16 Cluster 1

3 19 Cluster 1

4 24 Cluster 1

5 27 Cluster 1

⋮ ⋮ ⋮

7689 15940 Cluster 1

Pada Tabel 3.10. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kedua yaitu sebanyak 7689 data.

Tabel 3.11. Hasil Cluster Ketiga

No Data ke- Cluster

1 4 Cluster 2

2 7 Cluster 2

3 13 Cluster 2

4 14 Cluster 2

5 17 Cluster 2

(41)

⋮ ⋮ ⋮

1992 15935 Cluster 2

Pada Tabel 3.11. ditunjukkan data dan jumlah cluster yang terdapat pada cluster ketiga yaitu sebanyak 1992 data.

Tabel 3.12. Hasil Cluster Keempat

No Data ke- Cluster

1 1 Cluster 3

2 26 Cluster 3

3 29 Cluster 3

4 70 Cluster 3

5 76 Cluster 3

⋮ ⋮ ⋮

1245 15941 Cluster 3

Pada Tabel 3.12. ditunjukkan data dan jumlah cluster yang terdapat pada cluster keempat yaitu sebanyak 1245 data.

Tabel 3.13. Hasil Cluster Kelima

No Data ke- Cluster

1 2 Cluster 4

2 9 Cluster 4

3 12 Cluster 4

4 15 Cluster 4

5 28 Cluster 4

⋮ ⋮ ⋮

3132 15938 Cluster 4

Pada Tabel 3.13. ditunjukkan data dan jumlah cluster yang terdapat pada cluster kelima yaitu sebanyak 3132 data.

Dari proses clustering didapatkan informasi sebagai berikut:

1. Cluster pertama (C0) memiliki karakteristik kode penyakit E11, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

2. Cluster kedua (C1) memiliki karakteristik kode penyakit K04.1, banyak menyerang usia muda dan dewasa, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

(42)

30

3. Cluster ketiga (C2) memiliki karakteristik kode penyakit H61.2, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

4. Cluster keempat (C3) memiliki karakteristik kode penyakit A15.0, banyak menyerang usia tua, dengan jenis kelamin laki-laki, di kecamatan Medan Selayang.

5. Cluster kelima (C4) memiliki karakteristik kode penyakit M54.5, banyak menyerang usia tua, dengan jenis kelamin perempuan, di kecamatan Medan Selayang.

3.4. Perancangan Sistem

3.4.1. Perancangan Flowchart K-Means Clustering

Flowchart merupakan suatu bagan dengan simbol-simbol tertentu yang menggambarkan urutan proses secara mendetail dan hubungan antara suatu proses (instruksi) dengan proses lainnya dalam suatu program.

(43)

Gambar 3.2. Flowchart K-Means Clustering

Pada flowchart clustering dengan K-Means, proses diawali dengan menentukan jumlah cluster yang akan dibentuk kemudian menentukan nilai centroid pada masing- masing cluster. Setelah itu, hitung jarak data ke masing-masing pusat cluster menggunakan euclidean distance. Kelompokkan data pada cluster berdasarkan jarak terdekatnya, lalu hitung rata-rata data tiap titik pusat cluster untuk mendapatkan titik pusat cluster yang baru. Setelah titik pusat cluster baru dihasilkan, bandingkan titik pusat cluster baru dengan titik pusat cluster lama. Jika posisi anggota tiap cluster berubah maka ulangi proses menghitung jarak data ke masing-masing pusat cluster dengan menggunakan titik pusat cluster baru yang dihasilkan sebelumnya. Jika posisi

Gambar

Tabel 2.1. Pengodean Klasifikasi Penyakit Berdasarkan ICD-10
Gambar 2.1. Bidang Ilmu Data Mining (Pramudiono, 2006)
Gambar 2.2. Tahapan KDD (Fayyad, 1996)  2.5.  Clustering
Tabel 2.2. Penelitian Terdahulu
+7

Referensi

Dokumen terkait

Sehingga didapatkan hasil yang tidak seimbang atau memiliki selisih jumlah data yang sangat jauh pada setiap cluster... User Interface system telah dipaparkan

Akurasi juga menunjukkan bahwa hasil pelabelan data laporan masyarakat berdasarkan cluster menggunakan metode K-Means Clustering ini ketika diklasifikasi

Cluster yang diperoleh dari hasil pengolahan data dengan data mining dalam mengelompokan siswa baru sesuai dengan nilai hasil uji minat dan bakat, dapat digunakan oleh

Berdasarkan hasil perancangan, sistem informasi rekam medis yang dibangun dinilai dapat mempermudah kinerja karyawan dalam proses pengolahan data pasien dan

Pada penelitian data rekam medis pasien di rs bedah mitra sehat dengan metode naive bayes dan clustering didapat bebrapa gejala jenis penyakit tersebut dengan beberapa

Hasil dari penelitian ini dengan menggunakan algoritma Fuzzy K-Means yaitu kita dapat mengetahui kode penyakit pasien yang diproses akan masuk dalam klaster tertentu

adalah titik centroid dalam cluster ke-K Nk adalah jumlah data dalam cluster ke-K xi adalah data pertama dalam cluster ke-K HASIL Penelitian ini menggunakan data balita berpotensi

KESIMPULAN Hasil penelitian ini menunjukkan bahwa : a Dengan menerapkan algoritma K-Means Clustering dalam pengelompokan data profil mahasiswa Matematika UNM diperoleh 4 cluster,