KLASIFIKASI JENIS INFEKSI BERDASARKAN HASIL PEMERIKSAAN LEUKOSIT MENGGUNAKAN K-NEAREST NEIGHBOR (KNN) SKRIPSI SITY AYU NOVARINA SUYANTO

(1)

KLASIFIKASI JENIS INFEKSI BERDASARKAN HASIL PEMERIKSAAN LEUKOSIT MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

SKRIPSI

SITY AYU NOVARINA SUYANTO 141402142

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2018

(2)

KLASIFIKASI JENIS INFEKSI BERDASARKAN HASIL PEMERIKSAAN LEUKOSIT MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

SITY AYU NOVARINA SUYANTO 141402142

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2018

(3)

(4)

PERNYATAAN

KLASIFIKASI JENIS INFEKSI BERDASARKAN HASIL PEMERIKSAAN LEUKOSIT MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.

Medan, Juli 2018

Sity Ayu Novarina Suyanto 141402142

(5)

UCAPAN TERIMA KASIH

Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan izin-Nya sehinga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar sarjana Komputer pada Program Studi S1 Teknologi Informasi Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Selama dalam penyelesaian tugas akhir ini, banyak sekali bantuan dan dukungan serta doa dari berbagai pihak sehingga penulis ingin ucapan terima kasih sedalam-dalamnya dan penghargaan kepada:

1. Kedua orang tua penulis, Ayahanda Ir. Dodik Suyanto dan Ibunda Ir. Sri Rahayu, yang tidak hentinya memberikan dukungan dan doa. Orang tua yang selalu memberikan perhatian pada setiap proses pembuatan skripsi dan yang tidak pernah memberikan tekanan dalam hal apapun. Ucapan terima kasih juga kepada kakak dr.

Fitri Ayu Aprilina Suyanto, abang Muhammad Yudiansyah Taufiq Suyanto, dan adik Rachma Ayu Meilisa Suyanto yang selalu memberikan dukungan dan doa meskipun terpisah oleh jarak yang jauh.

2. Ucapan terima kasih juga penulis persembahkan kepada Ibu Dr. Erna Budhiarti Nababan, M.IT selaku pembimbing pertama dan Bapak Baihaqi Siregar, S.Si., MT selaku pembimbing kedua yang telah bersedia meluangkan waktu dan pikiran untuk membimbing penulis dalam mengerjakan skripsi ini.

3. Penulis mengucapkan terima kasih juga kepada bapak Dani Gunawan, ST., M.T selaku dosen pembanding satu dan bapak Romi Fadillah Rahmat, B.Comp.Sc., M.Sc selaku dosen pembanding dua yang selalu memberikan kritik dan saran pada penulisan dan sistem yang dibangun.

4. Serta semua dosen dan pegawai di lingkungan Fakultas Ilmu Komputer dan Teknologi Informasi yang telah membantu dan membimbing penulis selama proses perkuliahan.

5. Sahabat-sahabat akrab penulis yang sudah berteman sejak semester satu, Cindy

(6)

Saniyah, Hetly Saint Kartika Butar-butar, Victoria Lonita Christy Tambunan, Ayu Astuti Kartika, Nadya Maysyarah, Fanny Ramadhana, Sarah Elisabeth Nainggolan, Syaiful Anwar Husen Lubis, Sigit Satrio, M. Fachrin Aulia Nasution, M. Noor Misyuari, Ibnu Habibie, M. Faris Pratama, Samuel Ezzay Berlin Rasta Tarigan dan Rendra Mahardika.

6. Teman-teman lab penelitian, Ridho Fariha, M. Isa Dadi Hasibuan dan Nabila Deanna yang telah berbagi banyak cerita suka maupun duka selama awal pengerjaan tugas akhir sampai menyelesaikan tugas akhir.

7. Terima kasih juga penulis ucapkan khusus kepada Muhammad Fadly Tanjung yang telah bersedia meluangkan waktu untuk membantu pengerjaan tugas akhir dan membagikan ilmu yang bermanfaat bagi penulis selama ini.

8. Ucapan terima kasih juga yang banyak kepada teman-teman seperjuangan Teknologi Informasi 2011, 2012, 2013, 2014, 2015, 2016 dan 2017 yang sudah berteman baik selama ini.

Semoga Allah SWT melimpahkan berkah, rahmat, dan karunianya kepada semua pihak yang telah memberikan bantuan, perhatian dan dukungan pada penulis dalam menyelesaikan skripsi ini.

Medan, Juli 2018

Penulis

(7)

ABSTRAK

Leukosit adalah sel darah yang mengandung inti, disebut juga sel darah putih.

Leukosit mempunyai peranan dalam pertahanan seluler dan humoral organisme terhadap zat-zat asing. Pemeriksaan laboratorium dari sampel darah sangat mempengaruhi diagnosis suatu penyakit. Pemeriksaan darah secara manual memang memiliki harga yang murah tetapi masih memiliki beberapa kelemahan seperti jangka waktu yang dibutuhkan akan lebih lama, karena para praktisi kesehatan harus memeriksanya secara teliti untuk menghindari kesalahan informasi. Untuk membantu mengatasi kelemahan tersebut dilakukan penelitian klasifikasi jenis infeksi berdasarkan hasil pemeriksaan leukosit. Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Sehingga algoritma-algoritma untuk menyelesaikan masalah klasifikasi dikategorisasikan ke dalam supervised learning. Maksud dari pembelajaran yang diawasi adalah data label atau target ikut berperan sebagai ‘supervisor’ atau ‘guru’ yang mengawasi proses pembelajaran dalam mencapai tingkat akurasi atau presisi tertentu. Algoritma yang digunakan dalam penelitian ini adalah K-nearest neighbor (KNN). Data yang digunakan pada penelitian ini sebanyak 2.098 hasil pemeriksaan darah lengkap yang diambil dari salah satu rumah sakit yang ada di kota Medan. Penelitian ini menghasilkan akurasi klasifikasi sebesar 92%.

Kata Kunci: Leukosit, Infeksi dan K-Nearest Neighbor

(8)

CLASSIFICATION OF INFECTION TYPES BASED ON LEUKOCYTES EXAMINATION RESULTS USING K-NEAREST NEIGHBOR (KNN)

ABSTRACT

Leukocytes are blood cells that contain nuclei, also called white blood cells.

Leukocytes have a role in the cellular and humoral defence of organisms against foreign substances. Laboratory tests of blood samples greatly influence the diagnosis of a disease. Manual blood tests do have a low price but still have some weaknesses such as the length of time needed will be longer, because health practitioners must examine them carefully to avoid misinformation. To help overcome these weaknesses, a classification of types of infections was carried out based on the results of leukocyte examination. Classification is a grouping of data where the data used has a label or target class. So that the algorithms for solving classification problems are categorized into supervised learning. The purpose of supervised learning is that label data or targets play a role as a 'supervisor' or 'teacher' who oversees the learning process in achieving a certain level of accuracy or precision. The algorithm used in this study is K-Nearest Neighbour (KNN). The data used in this study as many as 2,098 results of complete blood tests taken from one hospital in Medan. This study resulted in a classification accuracy of 92%.

Keywords: Leukocytes, Infection and K-Nearest Neighbor

(9)

DAFTAR ISI

PERSETUJUAN ii

PERNYATAAN iii

UCAPAN TERIMA KASIH iv

ABSTRAK vi

ABSTRACT vii

DAFTAR ISI viii

DAFTAR TABEL x

DAFTAR GAMBAR xi

BAB 1 PENDAHULUAN

1.1 Latar Belakang 1

1.2 Rumusan Masalah 3

1.3 Batasan Masalah 3

1.4 Tujuan Penelitian 4

1.5 Manfaat Penelitian 4

1.6 Metodologi Penelitian 4

BAB 2 LANDASAN TEORI

2.1 Infeksi 7

2.2 Leukosit 7

2.3 Data Mining 9

2.4 Klasifikasi 12

2.5 Algoritma K-Nearest Neighbor 13

2.6 Supervised Learning 15

2.7 Data Preprocessing 15

2.8 Cross - Validation 16

2.9 Metode Evaluasi 17

(10)

BAB 3 ANALISIS DAN PERANCANGAN SISTEM

3.1 Data 22

3.2 Arsitektur Umum 23

3.3 Analisis Sistem 24

3.4 Perancangan Antarmuka Sistem 31

3.5 Hasil Akhir 33

3.6 Metode Evaluasi 34

BAB 4 IMPLEMENTASI DAN PENGUJIAN

4.1 Implementasi Sistem 35

4.2 Prosedur Operasional 39

4.3 Hasil Pengujian 40

BAB 5 KESIMPULAN DAN SARAN

5.1 Kesimpulan 47

5.2 Saran 47

DAFTAR PUSTAKA 49

(11)

DAFTAR TABEL

Hal.

TABEL 2.1. Variabel Perhitungan pada Metode Evaluasi 17

TABEL 2.2. Penelitian Terdahulu 20

TABEL 2.2. Penelitian Terdahulu (lanjutan) 21

TABEL 3.1. Tabel Data yang Digunakan 22

TABEL 3.1. Tabel Data yang Digunakan (lanjutan) 23

TABEL 3.2. Data Mentah sebelum Preprocessing 25

TABEL 3.3. Hasil Data Selection 26

TABEL 3.4. Hasil Data Cleaning 27

TABEL 3.5. Data yang Sudah diberi Label Jenis Infeksi 27 TABEL 3.6. Data Baru dengan Data Latih yang Sudah diberi Label 28

TABEL 3.7. Mengurutkan Nilai Jarak 30

TABEL 3.8. Contoh Implementasi Metode Evaluasi 34

TABEL 4.1. Perincian Data yang Digunakan dalam Pelatihan 38

TABEL 4.2. Pembagian Data Latih dan Data Uji 38

TABEL 4.3. Proses Pengujian Berbeda 40

TABEL 4.4. Data dengan K=1 41

TABEL 4.9. Metode Evaluasi Hasil Pengujian 46

(12)

DAFTAR GAMBAR

Hal.

GAMBAR 2.1. Bidang Ilmu Data Mining 9

GAMBAR 2.2. Tahapan pada Data Mining 11

GAMBAR 2.3. Ilustrasi Klasifikasi Algoritma K-Nearest Neighbor 13 GAMBAR 2.4. Ilustrasi K-NN dengan K=3, K=5 dan K=7 14

GAMBAR 2.5. Data Preprocessing 16

GAMBAR 2.6. Contoh 3-fold Cross Validation 17

GAMBAR 3.1. Arsitektur Umum 24

GAMBAR 3.2. Perancangan Menu Sistem 31

GAMBAR 3.3. Rancangan Tampilan Menu 32

GAMBAR 3.4. Rancangan Tampilan Informasi 32

GAMBAR 3.5. Rancangan Tampilan Uji 33

GAMBAR 3.6. Rancangan Tampilan Hasil Akhir 33

GAMBAR 4.1. Hasil Rancangan Antarmuka Halaman Utama 36 GAMBAR 4.2. Hasil Rancangan Antarmuka Informasi 36 GAMBAR 4.3. Perancangan Antarmuka Halaman Hasil 37 GAMBAR 4.4. Hasil Perancangan Antarmuka Halaman Hasil Klasifikasi 37

GAMBAR 4.5. Ilustrasi Pemilihan Training Data 39

GAMBAR 4.6. Ilustrasi Memulai Pengujian Data 40

GAMBAR 4.7. Hasil dengan K=1 41

GAMBAR 4.12. Grafik Akurasi Algoritma K-Nearest Neighbor 46

(13)

BAB 1 PENDAHULUAN

1.1. Latar Belakang

Darah merupakan suatu cairan yang sangat vital bagi manusia karena memiliki banyak fungsi yang mampu menunjang kehidupan. Keadaan seseorang yang sehat atau sakit bisa dideteksi dari sel-sel darah yang ada di dalam tubuh. Selain sebagai petunjuk adanya penyakit lain, sel-sel darah juga bisa menunjukkan adanya penyakit darah yang diakibatkan perubahan susunan kimiawi sel darah itu sendiri (Praida, 2008). Sel- sel darah terdiri dari sel darah merah (eritrosit), sel darah putih (leukosit), dan keping darah (trombosit) (Bakta, 2009). Analisis darah adalah metode yang bisa diandalkan, karena darah banyak mengandung informasi penting.

Pemeriksaan laboratorium dari sampel darah sangat mempengaruhi diagnosis suatu penyakit. Pemeriksaan darah yang dilakukan secara manual memiliki harga yang murah tetapi masih memiliki kelemahan yaitu jangka waktu pemeriksaan yang dibutuhkan akan lebih lama karena para praktisi kesehatan harus memeriksanya secara teliti untuk menghindari kesalahan informasi (Lestari, 2008). Berdasarkan hasil pemeriksaan laboratorium khususnya hasil pemeriksaan leukosit, dapat diidentifikasi penyakit yang mungkin menyerang tubuh pasien. Hasil pemeriksaan tersebut juga dapat mengidentifikasi adanya infeksi dalam tubuh.

Leukosit mampu menghasilkan antibodi untuk menunjang fungsi kekebalan tubuh.

Selain itu, leukosit juga mempunyai kemampuan diapedesis yaitu kemampuan menembus dinding pembuluh darah kapiler dan masuk ke dalam sel atau jaringan tubuh. Peningkatan atau penurunan bagian leukosit secara ekstrim dapat terindikasi sebagai adanya infeksi pada tubuh. Leukosit berasal dari sumsum tulang dan beredar di seluruh aliran darah dan merupakan bagian penting dalam sistem kekebalan tubuh kita.

Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan

(14)

data yang sangat banyak dan belakangan ini menjadi sangat populer. Klasifikasi juga berfungsi untuk mencapai pengertian yang sangat baik terhadap struktur dari database.

Metode K-NN merupakan salah satu metode yang paling banyak digunakan untuk menentukan klasifikasi. Metode ini bekerja dengan cara mengelompokkan data berdasarkan kemiripan atau kedekatan yang ada pada training data. Semakin banyak data yang digunakan untuk training maka akan semakin besar akurasi yang dapat dihasilkan dari testing data karena K-NN bekerja berdasarkan kemiripan yang ada (Wu, 2009). K-NN menyimpan seluruh training data dan hampir seluruh training data tersebut dibutuhkan pada saat masa testing. K-NN dilakukan dengan mencari kelompok k objek dalam data training yang paling dekat (mirip) dengan objek pada data baru atau data testing. Dalam kata lain, tujuan dari algoritma K-NN adalah untuk mengklasifikasi objek baru berdasarkan atribut dan data training. Algoritma ini sudah banyak digunakan untuk melakukan klasifikasi pada beberapa penelitian dan algoritma ini tidak menggunakan model apapun untuk dicocokkan dan hanya berdasarkan pada memori.

Pada penelitian kali ini, penulis mengajukan metode klasifikasi menggunakan k- nearest neighbor yang telah digunakan pada penelitian seperti klasifikasi data hasil produksi kelapa sawit dengan kriteria berupa hasil produksi pada periode bulan Juli- Desember (Nobertus, 2013). Penelitian ini menggunakan nilai k=1, k=3, k=5 dan k=7.

Berdasarkan hasil penelitian, data berhasil terklasifikasi dalam 6 kelompok berdasarkan kemiripan hasil produksi dari 50 kelompok tani yang ada di KUD.HIMADO.

Penelitian lain yang melakukan klasifikasi menggunakan algoritma K-NN yaitu penerapan metode K–Nearest Neighbor (KNN) dan metode Weighted Product (WP) dalam penerimaan calon guru dan karyawan tata usaha baru berwawasan teknologi (Studi Kasus : Sekolah Menengah Kejuruan Muhammadiyah 2 Kediri) dengan menggunakan 4 kriteria (Dzikrulloh, 2017). Akurasi yang dihasilkan dari penelitian ini sebesar 94%.

Selanjutnya, penelitian lain yaitu melakukan penerapan klasifikasi data menggunakan algoritma K-NN. Penelitian ini dilakukan dengan menggunakan Euclidean Distance dan memiliki tingkat keberhasilan hampir 100% karena data training dan sample yang digunakan masih dalam jangka kecil dan jarak mudah

(15)

Penelitian lain yang menerapkan algoritma K-NN yaitu untuk prediksi data penjualan pada PT. Multitek Mitra Sejati (Ferry, 2017). Pada penelitian ini, dengan menggunakan Euclidean Distance maka dihasilkan tingkat akurasi sebesar 70% yang dapat menghasilkan laporan prediksi penjualan kategori barang.

Selain itu penelitian selanjutnya yang dilakukan ialah untuk klasifikasi penyakit jantung menggunakan k-nearest neighbor dan genetic algorithm yang menghasilkan sebuah model yang mempermudah dokter dalam efesiensi diagnosis penyakit jantung dengan atribut yang lebih sedikit (Akhil, 2013). Pada penilitian ini, algoritma K-NN digabungkan dengan genetic algorithm untuk mendapatkan klasifikasi yang lebih efektif. Dengan menggunakan penggabungan kedua algoritma, akurasi yang didapat untuk mendiagnosa penyakit jantung menjadi lebih akurat.

Oleh karena itu dalam penelitian ini, penulis menerapkan algoritma K-NN untuk membuat penelitian dengan judul “Klasifikasi Jenis Infeksi Berdasarkan Hasil Pemeriksaan Leukosit Menggunakan K-Nearest Neighbor (K-NN)”.

1.2. Rumusan Masalah

Penentuan penyebab infeksi yang dilakukan secara konvensional memerlukan waktu yang relatif cukup lama dan tergantung oleh kehadiran tenaga ahli medis. Oleh karena itu diperlukan cara alternatif untuk mendapatkan informasi penyebab infeksi penyakit.

1.3. Batasan Masalah

Batasan masalah yang diberikan dalam penelitian ini adalah:

1. Data yang digunakan adalah hasil laboratorium darah lengkap sepanjang tahun 2017 dari sebuah rumah sakit di kota Medan.

2. Kriteria yang digunakan adalah:

A. Jenis Pemeriksaan Darah Eosinofil B. Jenis Pemeriksaan Darah Limfosit C. Jenis Pemeriksaan Darah Monosit

D. Jenis Pemeriksaan Darah Neutrofil Segmen E. Hasil Pemeriksaan

F. Nilai Rujukan

(16)

3. Klasifikasi infeksi hanya yang terjadi di leukosit beserta sub-kategorinya yaitu eosinofil, limfosit, monosit dan neutrofil segmen.

4. Klasifikasi infeksi hanya menghasilkan 2 output yaitu infeksi virus dan infeksi bakteri.

1.4. Tujuan Penelitian

Tujuan dari penelitian ini adalah menghasilkan klasifikasi jenis infeksi secara otomatis menggunakan algoritma K-Nearest Neighbor.

1.5. Manfaat Penelitian

Adapun manfaat penelitian ini diantara lain yaitu:

1. Membantu kepala laboratorium dan dokter memperoleh hasil pemeriksaan laboratorium khususnya pada bagian leukosit dan sub-kategorinya agar lebih cepat dan terukur.

2. Memberi masukan untuk penelitian lain dalam bidang medis dan klasifikasi menggunakan K-Nearest Neighbor (K-NN).

1.6. Metodologi Penelitian

Beberapa tahapan yang akan dilakukan pada penelitian ini adalah sebagai berikut:

1.6.1. Studi Literatur

Pada tahap ini dilakukan proses mengumpulkan bahan referensi mengenai hasil pemeriksaan laboratorium darah lengkap dan teknik klasifikasi menggunakan machine learning khususnya K-Nearest Neighbor dari berbagai buku, jurnal, artikel, dan beberapa sumber referensi lainnya.

1.6.2. Analisis Permasalahan

Pada tahap ini dilakukan analisis terhadap berbagai referensi yang telah dikumpulkan untuk mendapatkan pemahaman mengenai K-Nearest Neighbor dan jenis infeksi untuk menyelesaikan masalah menentukan klasifikasi jenis infeksi.

(17)

1.6.3. Perancangan

Proses perancangan dilakukan berdasarkan hasil analisis studi literatur yang telah didapatkan pada tahap sebelumnya. Pada tahap ini dilakukan pengumpulan dataset, perancangan arsitektur dan perancangan antar muka.

1.6.4. Implementasi

Pada tahap ini dilakukan implementasi dari hasil analisis dan perancangan yang telah dilakukan ke dalam pembangunan kode program menggunakan Bahasa pemrograman Python.

1.6.5. Pengujian

Pada tahap ini dilakukan pengujian terhadap hasil yang didapatkan melalui impelementasi K-Nearest Neighbor untuk menentukan klasifikasi jenis infeksi serta memastikan sistem telah berjalan sesuai dengan yang diharapkan.

1.6.6. Penyusunan Laporan

Pada tahap ini dilakukan penyusunan laporan mengenai hasil analisis dan implementasi K-Nearest Neighbor untuk menentukan klasifikasi jenis infeksi.

1.6.7. Sistematika Penulisan

Sitematika penulisan dari skripsi ini terdiri dari lima bagian utama sebagai berikut:

Bab 1: Pendahuluan

Bab ini berisi latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metodologi dan sistematika penulisan.

Bab 2: Landasan Teori

(18)

Bab ini berisi teori-teori yang digunakan untuk memahami permasalahan yang dibahas pada penelitian ini. Teori-teori yang berhubungan dengan leukosit, data mining, klasifikasi, K-Nearest Neighbor.

Bab 3: Analisis dan Perancangan

Bab ini berisi tentang analisis dan penerapan klasifikasi K-Nearest Neighbor untuk pengelompokkan jenis infeksi serta perancangan seperti flowchart dan tampilan.

Bab 4: Implementasi dan Pengujian

Bab ini berisi pembahasan tentang implementasi dari analisis dan perancangan yang telah disusun pada Bab 3. Selain itu, pada bab ini juga dipaparkan hasil dari pengujian sistem yang telah dibangun.

Bab 5: Kesimpulan dan Saran

Bab ini berisi kesimpulan dari seluruh pembahasan pada bab-bab sebelumnya dan saran-saran yang disampaikan untuk pengembangan pada penelitian selanjutnya.

(19)

BAB 2

LANDASAN TEORI

2.1. Infeksi

Infeksi adalah penyakit yang disebabkan oleh mikroba patogen dan bersifat sangat dinamis. Mikroba sebagai makhluk hidup memiliki cara bertahan hidup dengan berkembang biak pada suatu reservoir yang cocok dan mampu mencari reservoir lainnya yang baru dengan cara menyebar atau berpindah (Prianka, 2010). Penyebaran mikroba patogen ini tentunya sangat merugikan bagi orang-orang yang dalam kondisi sehat, lebih-lebih bagi orang-orang yang sedang dalam keadaan sakit.

2.2. Leukosit

Leukosit adalah sel darah yang mengandung inti, disebut juga sel darah putih.

Didalam darah manusia, didapati jumlah leukosit rata-rata 5.000-9.000 sel/mm³. Leukosit terbagi kedalam beberapa turunan yaitu monosit, limfosit, basofil, eosinofil, atipikal limfosit, dan neutrofil. Jika seseorang terindikasi adanya infeksi maka leukositnya akan meningkat, namun pada hasil pemeriksaan laboratorium tidak diketahui secara spesifik bagian tersebut terinfeksi oleh bakteri, virus atau parasit.

Leukosit mempunyai peranan dalam pertahanan seluler dan humoral organisme terhadapa zat-zat asing. Bila jumlahnya lebih dari 9000 sel/mm, keadaan ini disebut leukositosis, bila kurang dari 5000 sel/mm3 disebut leukopenia. Leukopenia adalah penurunan jumlah sel darah sedangkan leukositosis adalah peningkatan jumlah sel darah putih dalam sirkulasi. Leukositosis adalah suatu respon normal terhadap infeksi atau peradangan (Macon, 2017).

(20)

2.2.1. Neutrofil

Neutrofil adalah sel-sel kekebalan dan terdiri dari 50-70% dari total sel darah putih didalam tubuh. Fungsi sel darah putih neutrofil adalah sebagai baris pertama pertahanan tubuh terhadap antigen penyerang dan merupakan sel pertama yang tiba di tempat infeksi atau cedera. Sinyal kimia yang dilepaskan oleh sel yang rusak akan menarik neutrofil, kemudian ia akan menempel pada dinding pembuluh darah dan menelan partikel asing sebelum dapat memasuki aliran darah. Neutrofil berumur pendek dan merusak dirinya sendiri setelah menelan antigen berbahaya (Moris, 2017).

2.2.2. Limfosit

Sel B dan sel T adalah komponen utama dari imunitas adaptif tubuh. Terdapat sekitar 20-40% dari total sel darah putih didalam tubuh. Sel-sel B yang terutama bertanggung jawab untuk memproduksi antibodi terhadap partikel asing, yang diingat dan mengikat secara khusus untuk partikel asing lebih cepat yang akan disampaikan kepada sel T untuk kemudian dihancurkan. Sel T memiliki banyak fungsi, tetapi terutama berfungsi menghancurkan sel-sel yang telah diidentifikasi oleh antibodi. Sel NK tidak sespesifik sel T tetapi juga berfungsi dalam menghancurkan sel-sel dengan melepaskan butiran, seperti eosinofil. Ketiga sel darah putih ini akan bekerja sama dalam menjalankan fungsinya sehingga akan berjalan cepat dan efisien membersihkan tubuh dari mikroorganisme ataupun zat berbahaya (Morris, 2017).

2.2.3. Monosit

Monosit terdiri 2-8% dari total sel darah putih dalam sirkulasi. Monosit berasal dari sumsum tulang dan berkembang menjadi makrofag besar dalam aliran darah.

Makrofag adalah sel yang terbesar di antara sel-sel darah putih yang ada (Swirski FK, 2009). Fungsi sel darah putih makrofag adalah bertanggung jawab untuk menelan sel mati, limbah dan bakteri berbahaya. Makrofag menyerang mikroba dengan menjulurkan kaki-kaki pseudopodia untuk menangkap, kemudian menghancurkan mikroba dengan melepaskan enzim dari dalam makrofag.

(21)

2.2.4. Eosinofil

Eosinofil adalah salah satu jenis sel darah putih yang merupakan bagian dari sistem kekebalan tubuh. Kadar eosinofil yaitu dihitung berdasarkan rasio terhadap jumlah seluruh sel darah putih yaitu rasio eosinofil normal sekitar 1-6% terhadap sel darah putih (Starkebaum, 2017). Eosinofil umumnya memiliki inti dengan dua lobus (bilobed). Sesuai dengan namanya, eosinofil berwarna eosin (pink) berwarna merah muda.

2.3. Data Mining

Data Mining adalah analisis meninjau sekumpulan data untuk menemukan suatu hubungan yang tidak diduga dan meringkas data secara berbeda dengan sebelumnya yang bermanfaat dan dipahami oleh pemilik data (Larose, 2005).

Data Mining mewarisi banyak aspek dan teknik dari berbagai bidang ilmu. Dari Gambar 2.1 menunjukkan bahwa data mining memiliki akar yang panjang dari bidang.

Gambar 2.1 Bidang Ilmu Data Mining (Pramudiono, 2006)

Data Mining adalah bagian dari Knowledge Discovery in Database (KDD).

Knowledge Discovery in Database (KDD) adalah keseluruhan proses untuk mencari dan mengidentifikasi pola atau informasi data, dimana pola yang ditemukan bersifat sah, baru, dapat bermanfaat dan dapat dimengerti. Secara garis besar proses KDD

(22)

1. Data Selection

Pemilihan (seleksi) data dilakukan dari suatu kumpulan data operasional, sebelum tahap penggalian informasi dalam KDD dimulai proses ini perlu dilakukan. Data hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional.

2. Pre-processing

Proses cleaning perlu dilakukan pada data yang menjadi fokus KDD sebelum proses data mining dapat dilakukan. Proses cleaning melingkupi antara lain membuang data yang memiliki duplikasi, data yang tidak konsisten diperiksa, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (typo), juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

3. Transformation

Proses transformasi pada data yang telah dipilih adalah coding, sehingga sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.

4. Data Mining

Data mining merupakan proses untuk mencari suatu pola atau informasi yang menarik dalam data yang terpilih dengan teknik atau metode tertentu. Data mining memiliki teknik, metode, atau algoritma dalam sangat bervariasi. Pemilihan metode dan algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation/Evalution

Interpretation merupakan proses untuk menampilkan pola informasi yang dihasilkan dari proses data mining oleh pihak yang berkepentingan. Tahap ini meliputi pemeriksaan terhadap pola atau informasi yang ditemukan agar tidak bertentangan dengan fakta atau hipotesis yang ada sebelumnya.

(23)

Gambar 2.2 Tahapan pada Data Mining (Fayyad, 1996)

Fungsi-fungsi dalam data mining mengacu pada Larose (2005) yang membaginya ke dalam enam fungsi yaitu (Susanto & Suryadi, 2010) :

1. Fungsi Deskripsi (description)

Fungsi deskripsi adalah cara yang digunakan untuk menggambarkan sekumpulan data secara ringkas. Banyak cara yang digunakan dalam memberikan gambaran secara ringkas bagi sekumpulan data yang besar jumlahnya dan banyak macamnya yaitu deskripsi grafis, deskripsi lokasi dan deskripsi keragaman.

2. Fungsi Estimasi (estimation)

Fungsi estimasi adalah fungsi untuk memperkirakan suatu hal yang sudah ada datanya. Fungsi estimasi terdiri dari dua cara yaitu estimasi titik dan estimasi selang kepercayaan.

3. Fungsi Prediksi (prediction)

Fungsi prediksi adalah memperkiraan hasil dari informasi yang belum diketahui untuk mendapatkan informasi baru yang akan muncul selanjutnya.

4. Fungsi Klasifikasi (clasification)

Fungsi klasifikasi atau menggolongkan suatu data. Beberapa algoritma yang digunakan antara lain adalah algoritma Mean Vector, algoritma K-Nearest Neighbor (KNN), algoritma C.45 dan algoritma lainnya. Fungsi klasifikasi ini banyak juga digunakan untuk melakukan prediksi.

(24)

5. Fungsi Klastering (clustering)

Fungsi klastering merupakan fungsi untuk mengelompokkan data. Data yang dikelompokkan disebut objek yang memiliki kemiripan atribut kemudian dikelompokkan yang berbeda. Teknik atau metode klastering dapat dikelompokkan menjadi 2 kategori besar yaitu, metode hirarki (hierarchical clustering) dan metode partisi (partitional clustering).

6. Fungsi Asosiasi (Association)

Fungsi asosiasi adalah untuk menemukan aturan hubungan (association rule) yang mampu mengindentifikasi item-item yang menjadi objek.

2.4. Klasifikasi

Salah satu tugas yang dapat dilakukan dengan data mining adalah pengklasifikasian.

Klasifikasi pertama kali diterapkan pada bidang tanaman yang mengklasifikasi suatu spesies tertentu, seperti yang dilakukan oleh Carolus von Linne (atau dikenal dengan nama Carolus Linnaeus) yang pertama kali mengklasifikasi spesies berdasarkan karakteristik fisik. Klasifikasi adalah suatu pengelompokan data dimana data yang digunakan tersebut mempunyai kelas label atau target. Sehingga algoritma-algoritma untuk menyelesaikan masalah klasifikasi dikategorisasikan ke dalam supervised learning atau pembelajaran yang diawasi. Maksud dari pembelajaran yang diawasi adalah data label atau target ikut berperan sebagai ‘supervisor’ atau ‘guru’ yang mengawasi proses pembelajaran dalam mencapai tingkat akurasi atau presisi tertentu.

Teknik klasifikasi mampu memproses data yang sangat banyak dan belakangan ini menjadi sangat populer. Klasifikasi juga berfungsi untuk mencapai pengertian yang sangat baik terhadap struktur dari database.

Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah. Contoh klasifikasi dalam bisnis dan penelitian adalah : A. Menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang

curang atau bukan;

B. Memperkirakan apakah suatu pengajuan hipotek oleh nasabah merupakan

(25)

C. Mendiagnosis penyakit seorang pasien untuk mendapatkan termasuk kepada penyakit apa.

2.5. Algoritma K-Nearest Neighbor

K-Nearest Neighbor merupakan salah satu metode untuk mengambil keputusan menggunakan pembelajaran dimana hasil dari dataset masukan yang baru diklasifikasi berdasarkan yang terdekat dalam dataset nilai. Algoritma K-Nearest Neighbor (KNN) adalah sebuah metode untuk melakukan klasifikasi terhadap objek yang berdasarkan dari data pembelajaran yang jaraknya paling dekat dengan objek tersebut. KNN merupakan algoritma supervised learning dimana hasil dari query instance yang baru diklasifikan berdasarkan mayoritas dari kategori pada algoritma KNN. Dimana kelas yang paling banyak muncul yang nantinya akan menjadi kelas hasil dari klasifikasi.

KNN adalah algoritma yang mengklasifikasikan data berdasarkan pada klasifikasi tetangganya. Hal ini berarti jika sebuah data dikelilingi oleh empat titik data merah dan satu titik data hitam, maka pemilihan terbesar akan menyimpulkan bahwa data yang baru dimasukkan merupakan kelompok data merah seperti yang ditunjukkan pada Gambar 2.3.

Gambar 2.3. Ilustrasi Klasifikasi Algoritma K-Nearest Neighbor

Kedekatan didefinisikan dalam jarak metrik, seperti rumus Euclidean Distance (jarak Euclidean). Rumus Euclidean dapat dicari dengan menggunakan Persamaan 2.1:

‴〶 ⸹

_⸹h

‴ 〶

^(2.1)

Dimana :

(26)

x : data training y : data testing

n : jumlah atribut individu antara 1 s.d.

f : fungsi similitary atribut antara kasus dan kasus

= atribut individu antara 1 sampai dengan

Langkah-langkah untuk menghitung metode K-Nearest Neighbor antara lain:

1. Menentukan K (Jarak tetangga terdekat);

2. Menghitung jarak antara data yang diuji dengan data training (data latih). Pada tahap ini menghitung jarak data yang mau diprediksi dihitung dengan semua data training (data latih);

3. Mengurutkan nilai jarak atau me-ranking berdasarkan K ke dalam kelompok yang mempunyai Euclid terkecil (mengurutkan hasil jarak secara dari terkecil ke terbesar);

4. Mengumpulkan kategori Y (Klasifikasi Nearest Neighbor) berdasarkan nilai K atau ambil data tetangga terdekat setelah diurutkan sebelumnya, dan tentukan nilai K yang bagus;

5. Langkah selanjutnya, penentuan klasifikasi. Dari hasil training, akan diperoleh data yang mendominasi.

Nilai K digunakan di semua kelas. Sejak distribusi sampel lokal di kelas yang sangat berbeda, nilai K untuk memilih lokal yang paling mirip untuk setiap kelas biasanya sangat berbeda. Ilustrasi K-NN dapat digambarkan pada lingkaran yang berwarna abu-abu sebagai data uji sedangkan lingkaran merah dan hitam merupakan data latih, dimana semua lingkaran merah sebagai kelas 1 dan semua lingkaran hitam sebagai kelas 2 dapat dilihat pada gambar 2.4.

K = 3 K = 5 K = 7

(27)

Berdasarkan gambar 2.4, saat K bernilai 3 maka data uji berada pada kelas 2. Jika K bernilai 5 maka data uji berada pada kelas 1 dan saat K bernilai 7 maka data uji berada pada kelas 2.

2.6. Supervised Learning

Dalam supervised learning, algoritma tersebut seolah-olah dilatih terlebih dahulu agar dapat melakukan prediksi maupun klasifikasi. supervised learning membutuhkan data training agar mampu melakukan prediksi maupun klasifikasi. Dalam bentuk matematis, dapat dituliskan bahwa:

⸹ ‴

^(2.2)

Pendekatan supervised learning mempuyai input dan output yang dapat dibuat menjadi suatu model hubungan matematis sehingga mampu melakukan prediksi dan klasifikasi berdasarkan data yang telah ada sebelumnya. Sehingga dengan data training tersebut akan diperoleh suatu model regresi yang selanjutnya akan digunakan untuk melakukan peramalan. Jadi kesimpulannya adalah supervised learning menggunakan data latih (data training) dalam melakukan prediksi mapun klasifikasi.

2.7. Data Preprocessing

Data preprocessing merupakan tahapan dari data mining yang biasanya dilakukan untuk mengolah data menjadi lebih baik dan berkualitas. Biasanya data mentah yang belum dilakukan tahap preprocessing memiliki keadaan sebagai berikut:

 Tidak lengkap : kekurangan nilai atribut.

 Noisy : data masih memiliki error dan outliers.

 Tidak konsisten : pemberian nama atau pengkodean yang tidak teratur.

Oleh karena itu perlu dilakukan data preprocessing dengan langkah –langkah data cleaning, data integration, data transformation, dan data reduction.

(28)

Gambar 2.5 Data Preprocessing (Han, J, et al, 2006)

Data cleaning merupakan tindakan mendeteksi dan memperbaiki atau menghapus data rusak atau tidak akurat untuk bisa diatur dalam catatan, tabel, atau database.

Sedangkan data integration merupakan proses menggabungkan atau menyatukan dua atau lebih sebuah data dari berbagai sumber database ke dalam sebuah penyimpanan seperti gudang data (data warehouse). Selanjutnya dalam data preprocessing ada yang dinamakan dengan data transformation yang dimaksud dengan mentransformasi atau mengubah data ke bentuk yang cocok untuk diproses kedalam data mining. Tahapan lain dalam data preprocessing yaitu data reduction dilakukan pemilihan, dan pemusatan perhatian untuk penyederhanaan, abstraksi, dan transformasi data kasar yang diperoleh untuk menjadi data yang seimbang dan dapat diolah dengan baik.

2.8 Cross – Validation

Cross-Validation adalah sebuah metode statistika untuk mengevaluasi dan membandingkan algoritma pembelajaran atau pelatihan dengan cara membagi data menjadi dua segmen; satu segmen digunakan untuk sebuah model dan satu segmen lainnya digunakan untuk proses validasi model (Refaeilzadeh, 2008).

Pada k-fold cross-validation, pertama dataset dibagi menjadi k bagian/segmen.

Kemudian dilakukan perulangan sebanyak k kali untuk menjalankan proses pelatihan dan validasi, dimana di setiap perulangannya satu segmen yang berbeda dijadikan

(29)

sebagai bahan untuk pelatihan (Refaeilzadeh et al., 2008). Sebagai contoh untuk 3-fold cross-validation dapat dilihat pada Gambar 2.6.

Gambar 2.6 Contoh 3-fold Cross Validation (Rafailzaldeh, 2008) 2.9. Metode Evaluasi

Metode evaluasi menggunakan matriks konfusi atau yang biasa disebut dengan confussion matrix merupakan perhitungan untuk mengukur seberapa baik proses klasifikasi infeksi menggunakan algoritma K-Nearest Neighbor. Tahapan ini menerapkan aturan variabel 2.1 dengan melakukan perhitungan menggunakan 3 keluaran yaitu precision, recall dan F-score yang diperkenalkan oleh Baeza-Yates &

Ribeiro-Neto (1999). Rumus yang digunakan untuk metode evaluasi dapat dilihat pada persamaan berikut.

Tabel 2.1. Variabel Perhitungan pada Metode Evaluasi

Label Manual Infeksi

Infeksi Bakteri Infeksi Virus Hasil

Klasifikasi

Infeksi Bakteri True Positive (TP) False Positive (FP) Infeksi Virus False Negative (FN) True Negative (TN)

Recall =

_th^t ^(2.3)

Precision =

_{th t}^t ^(2.4)

F-score =

^t ^(2.5)

(30)

Dimana :

- True Positive (TP) adalah kondisi dimana data dengan label infeksi bakteri berhasil diklasifikasi sebagai infeksi bakteri.

- False Positive (FP) adalah kondisi dimana data dengan label infeksi virus gagal diklasifikasi sebagai infeksi virus.

- True Negative (TN) adalah kondisi dimana data dengan label infeksi virus berhasil diklasifikasi sebagai infeksi virus.

- False Negative (FN) adalah kondisi dimana data dengan label infeksi bakteri gagal diklasifikasi sebagai infeksi bakteri.

2.10. Penelitian Terdahulu

Beberapa penelitian yang telah dilakukan sebelumnya, diantaranya yaitu: penelitian yang dilakukan oleh (Nihru Nafi’ Dzikrulloh, 2017), yaitu Penerapan Metode K- Nearest Neighbor dan Metode Weighted Product (WP) Dalam Penerimaan Calon Guru dan Karyawan Tata Usaha Baru Berwawasan Teknologi (Studi Kasus : Sekolah Menengah Kejuruan Muhammadiyah 2 Kediri). Pada penelitian ini digunakan empat kriteria yaitu IPK rata – rata, hasil tes akademik, hasil tes pengetahuan umum tentang IPTEK dan hasil tes wawancara. Penelitian ini berhasil dilakukan dengan melakukan perangkingan agar dapat diambil hasil yang terbaik. Hasil dari pengujian pengaruh nilai K terbaik dengan beberapa kriteria nilai bobot diperoleh nilai akurasi sebesar 94%.

Penelitian selanjutnya yang dilakukan oleh (Ferry Hermawan, 2017) yaitu Implementasi Metode K-Nearest Neighbor Pada Aplikasi Data Penjualan PT. Multitek Mitra Sejati. Pada penelitian ini dilakukan prediksi penjualan berdasarkan kategori barang. Data yang digunakan dalam rentang jarak data 2 tahun. Hasil keakuratan dari pengujian ini menggunakan metode KNN sebesar 85.91%.

Penelitian selanjutnya yang dilakukan oleh (Aman Kataria, 2013) yaitu A Review of Data Classification Using K-Nearest Neighbor Algorithm. Penelitian ini berhasil dilakukan dan menyarankan penggunaan algoritma lain yang dipakai bersamaan dengan KNN yaitu Genetic Algorithm. Penelitian ini dilakukan dengan

(31)

hampir 100% karena data training dan sample yang digunakan masih dalam jangka kecil dan jarak mudah dijangkau.

Penelitian lain yaitu dilakukan oleh (Hassan Shee Khamis, 2014) yaitu Application of k-Nearest Neighbor Classification in Medical Data Mining.

Penelitian menggunakan algoritma KNN dapat meningkatkan penurunan error pada diagnose pasien, mengurangi waktu untuk mendiagnosa sementara tetap dapat meningkatkan efesiensi dan keefektifan dalam pengobatan. Teknik data mining menggunakan KNN berdampak pada keefektifan biaya administrasi dan klasifikasi. Hasil dari penelitian ini sebesar 75%.

Penelitian selanjutnya dilakukan oleh (Shubham Manik, 2016), yaitu Counting and Classification of White Blood Cell using Artificial Neural Network (ANN).

Penelitian ini berhasil dilakukan dengan menggunakan gambar sel yang berasal dari laboratorium dan menggunakan teknik segmentasi, lalu didapatkan hasil pengelompokkan sel darah putih seperti limfosit, basofil, neutrofil, dan eosinofil.

Penelitian mengenai klasifikasi juga pernah dilakukan oleh (Jodiaman, 2017), yaitu Klasifikasi Stroke Menggunakan Convolutional Neural Network. Penelitian ini berhasil citra diklasifikasi menggunakan Convolutional Neural Network. Setelah dilakukan pengujian pada penelitian ini, didapatkan kesimpulan bahwa metode yang diajukan memiliki kemampuan dalam mengidentifikasi stroke yang sangat baik dengan akurasi sebesar 86,6%.

Selanjutnya, penelitian yang dilakukan oleh (Amalia, 2018), yaitu Klasifikasi Pendarahan Otak Menggunakan Backpropagation Neural Network. Tahap – tahap yang dilakukan sebelum klasifikasi adalah pengolahan citra (contrast stretching dan thresholding), ekstraksi fitur menggunakan metode Principle Component Analysis (PCA). Hasil penelitian ini menunjukkan bahwa metode yang diajukan mampu melakukan klasifikasi pendarahan otak dengan akurasi sebesar 88% dengan maksimum epoch yang digunakan adalah 1000.

Penelitian berikutnya yang dilakukan oleh (Novita, 2015), yaitu Penerapan Algoritma k-NN (nearest neighbor) untuk Deteksi Penyakit (Kanker Serviks). Setelah dilakukan pengujian pada penelitian ini, didapatkan kesimpulan bahwa metode yang

(32)

diajukan memiliki kemampuan dalam mengidentifikasi kanker serviks yang sangat baik dengan akurasi sebesar 82%.

Penelitian selanjutnya dilakukan oleh (Dini, 2018), yaitu Klasifikasi Penyakit Kanker Usus Besar (Kanker Kolorektal) Menggunakan Probabilistic Neural Network.

Tahap – tahap yang dilakukan sebelum klasifikasi adalah pra-pengolahan (resizing, grayscale dan contrast stretching ), ekstraksi fitur menggunakan metode gray level co- occurance matrices. Dan tahap terakhir yaitu proses untuk menentukan jenis kanker normal, carcinoma, atau lymphoma. Hasil penelitian ini menunjukkan bahwa metode yang diajukan mampu melakukan klasifikasi kanker kolorektal dengan akurasi sebesar 87%.

Tabel 2.2 Penelitian Terdahulu

No. Peneliti/Tahun Metode Keterangan

1. Dzikrulloh, N.

N., et al, 2017

K-Nearest Neighbor, Weighted

Product

Pada penelitian ini digunakan empat kriteria yaitu IPK rata – rata, hasil tes akademik, hasil tes

pengetahuan umum tentang IPTEK dan hasil tes wawancara.

Hasil akurasi sebesar 94%.

2. Hermawan, F., Agung, H., 2017

K-Nearest Neighbor Pada penelitian ini dilakukan prediksi penjualan berdasarkan

kategori barang. Data yang digunakan dalam rentang jarak

data 2 tahun. Hasil keakuratan dari pengujian ini menggunakan

metode KNN sebesar 85.91%.

3. Kataria, A., Singh, M. D., 2013

K-Nearest Neighbor Penelitian ini dilakukan dengan menggunakan Euclidean Distance. Penelitian ini memiliki

tingkat keberhasilan hamper 100% karena data training dan

(33)

Tabel 2.2 Penelitian Terdahulu (lanjutan)

No. Peneliti/Tahun Metode Keterangan

dalam jangka kecil dan jarak mudah dijangkau.

4. Khamis, H. S., et al, 2014

K-Nearest Neighbor Penelitian menggunakan algoritma KNN dapat meningkatkan penurunan error

pada diagnose pasien, mengurangi waktu untuk mendiagnosa sementara tetap dapat meningkatkan efesiensi

dan keefektifan dalam pengobatan. Hasil dari penelitian ini sebesar 75%.

5. Manik, S., et al, 2016

Artificial Neural Network (ANN)

Penelitian ini berhasil dilakukan dengan menggunakan gambar sel

yang berasal dari laboratorium dan menggunakan teknik segmentasi, lalu didapatkan hasil

pengelompokkan sel darah putih seperti limfosit, basofil, neutrofil,

dan eosinofil.

6. Mariana, N., Redjeki, R. S., Razaq, J. A., 2015

K-Nearest Neighbor (KNN)

Penelitian menggunakan algoritma KNN dapat meningkatkan penurunan error

pada diagnose pasien, mengurangi waktu untuk mendiagnosa sementara tetap dapat meningkatkan efesiensi.

(34)

BAB 3

ANALISIS DAN PERANCANGAN

Pada bab ini akan dibahas mengenai analisis dan perancangan sistem. Pada tahap analisis akan dilakukan analisis terhadap algoritma K-Nearest Neighbor. Pada tahap perancangan akan dibahas mengenai tampilan antarmuka pada aplikasi yang akan dibangun.

3.1. Data

Data yang digunakan dalam penelitian berasal dari salah satu rumah sakit di kota Medan. Dari data tersebut diambil data pemeriksaan darah lengkap pasien sepanjang tahun 2017. Setelah pengumpulan data dilakukan analisis data sesuai dengan kebutuhan sistem. Analisis data dilakukan menggunakan K-Nearest Neighbor.

Total data yang digunakan 2.098 data pasien. Dari data tersebut terdapat 5 kriteria yang digunakan dalam penelitian. Adapun 5 kriteria untuk pengelompokan adalah nilai hasil pemeriksaan, nilai referensi pemeriksaan neutrofil, nilai referensi pemeriksaan eosinofil, nilai referensi pemeriksaan limfosit dan nilai referensi pemeriksaan monosit. Tabel daftar atribut yang digunakan pada penelitian dan nilainya dapat dilihat pada Tabel 3.1.

Tabel 3.1 Tabel Data yang Digunakan

Pasien Eosinofil Limfosit Monosit Neutrofil

1 0.3 10.3 4.5 83.6

2 10.1 36.2 0.8 24.5

3 13.2 26.1 2.4 36.7

4 0.1 15.6 14.2 72.1

(35)

Tabel 3.1 Tabel Data yang Digunakan (lanjutan)

Pasien Eosinofil Limfosit Monosit Neutrofil

6 0.1 5.1 14.4 80.2

7 1.3 23.3 9.4 78.1

8 2.0 41.5 21.0 34.9

9 1.8 44.7 8.2 42.8

10 2.0 4.5 9.8 59.5

….

2.098 1.1 28.8 7.1 62.9

3.2. Arsitektur Umum

Metode yang diajukan untuk menentukan klasifikasi jenis infeksi terdiri dari beberapa tahapan. Tahapan-tahapan tersebut dimulai dari data collection yaitu pengumpulan data yang berasal dari salah satu rumah sakit yang ada di kota Medan.

Selanjutnya, dilakukan data preprocessing berupa selecting yaitu mendapatkan bagian data yang diinginkan. Lalu cleaning digunakan untuk memeriksa data yang inkonsisten dan kesalahan cetak (tipografi) serta mengisi missing value. Selanjutnya labelling untuk membuat tanda pada data training sebagai data latih untuk pembelajaran terhadap mesin.

Tahapan selanjutnya yaitu klasifikasi, di dalam menentukan K (jarak tetangga terdekat). Pada tahap ini ditentukan nilai K misal, K=5 (K dapat ditentukan sesuai dengan tingkat akurasi paling tinggi). Kemudian, menghitung jarak antara data yang diuji dengan data training (data latih). Pada tahap ini, menghitung jarak data yang mau diprediksi dihitung dengan semua data training (data latih). Lalu, mengurutkan nilai jarak atau me-ranking berdasarkan K ke dalam kelompok yang mempunyai Euclid terkecil (mengurutkan hasil jarak secara dari terkecil ke terbesar). Selanjutnya, mengumpulkan kategori klasifikasi (klasifikasi Nearest Neighbor) berdasarkan nilai K atau ambil data tetangga terdekat setelah diurutkan sebelumnya, dan tentukan nilai K yang paling baik. Langkah selanjutnya, penentuan klasifikasi. Dari hasil klasifikasi, akan diperoleh data yang mendominasi.

(36)

Langkah selanjutnya yaitu memasukkan dokumen yang memiliki format CSV, lalu melakukan training, setelah itu didapati hasil dari klasifikasi maka data baru akan secara otomatis mengikuti tetangga terbanyaknya. Langkah akhir yaitu akan didapatkan 2 jenis output yaitu infeksi virus dan infeksi bakteri. Adapun tahapan- tahapan diatas dapat dilihat dalam bentuk arsitektur umum pada Gambar 3.1

Gambar 3.1 Arsitektur Umum 3.3. Analisis Sistem

Pada tahap ini dilakukan analisis dengan K-Nearest Neighbor. Tahapan analisis yang akan dilakukan yaitu terdiri dari 4 atribut dengan skala kuantitatif yaitu hasil pemeriksaan eosinofil, pemeriksaan limfosit, pemeriksaan monosit dan pemeriksaan neutrofil. Namun, data mentah yang didapat dari rumah sakit akan terlebih dahulu dilakukan proses preprocessing karena tidak semua data akan digunakan dalam penelitian contohnya seperti penghapusan kolom ataupun penghapusan data yang tidak berhubungan dengan penelitian. Oleh karena itu, data mentah yang didapat dari

(37)

Tabel 3.2 Sampel Data Mentah sebelum Preprocessing

laboratory_id test_id test_name result result_comment reference_value

20681 Eritrosit 2.78 4.4 – 5.9

20681 MCH 21.9 27.0 – 31.0

20681 MCHC 31.3 32.0 – 36.0

20681 MCV 70.1 82.0 – 92.0

20681 Hematokrit 19.5 43 – 49

20681 Hemoglobin 6.1 14.0 – 17.0

20681 Leukosit 14.48 3.8 – 10.6

20681 Basofil 0.3 0 – 1

20681 Eosinofil 0.3 1 – 6

20681 Monosit A 0.27 0.2 – 0.4

20681 Trombosit 194 150 – 440

20681 Basofil A 0.04 0 – 0.1

20681 Eosinofil A 0.02 0 – 0.10

20681 RDW-CV 21.9 11.0 – 15.5

20681 Limfosit 10.3 20 – 40

20681 Monosit 4.5 2 – 8

20681 Neutrofil A 13.81 2.7 – 6.5

20681 Limfosit A 0.34 1.5 – 3.7

20681 PDW 8.4 9.6 – 15.2

20681 Neutrofil 83.6 50 – 70

20681 MPV 8.4 9.2 – 12.0

20681 RDW-SD 52.6 39 – 46

3.3.1. Data Selection

Proses preprocessing pertama yang dilakukan yaitu pemilihan (seleksi) data dilakukan dari suatu kumpulan data operasional, sebelum tahap penggalian informasi dalam KDD dimulai proses ini perlu dilakukan. Data hasil seleksi disimpan dalam suatu berkas, terpisah dari basis data operasional. Pada penelitian ini, data yang digunakan

(38)

dihapus atau dihilangkan dari tabel tersebut sehingga hanya tersisa 4 jenis data yang dibutuhkan saja. Hasil yang didapat dari data selection dapat dilihat pada Tabel 3.3.

Tabel 3.3 Sampel Hasil Data Selection

laboratory_id test_id test_name result result_comment reference_value

20681 Eosinofil 0.3 1 – 6

20681 Limfosit 10.3 20 – 40

20681 Monosit 4.5 2 – 8

20681 Neutrofil 83.6 50 – 70

20682 Eosinofil 10.1 1 – 6

20682 Limfosit 36.2 20 – 40

20682 Monosit 0.8 2 – 8

20682 Neutrofil 24.5 50 – 70

20683 Eosinofil 13.2 1 – 6

20683 Limfosit 26.1 20 – 40

20683 Monosit 2.4 2 – 8

20683 Neutrofil 36.7 50 – 70

3.3.2. Data Cleaning (labelling)

Proses cleaning perlu dilakukan pada data yang menjadi fokus KDD sebelum proses data mining dapat dilakukan. Proses cleaning melingkupi antara lain membuang data yang memiliki duplikasi, data yang tidak konsisten diperiksa, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (typo), juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal. Hasil yang didapat dari proses data cleaning yaitu penghapusan atribut yang tidak dipergunakan dan mengubah bentuk tabel sesuai dengan penelitian yang akan dilakukan. Data setelah proses cleaning dapat dilihat pada Tabel 3.4.

(39)

Tabel 3.4 Sampel Hasil Data Cleaning

Pasien Eosinofil Limfosit Monosit Neutrofil

1 0.3 10.3 4.5 83.6

2 10.1 36.2 0.8 24.5

3 13.2 26.1 2.4 36.7

4 0.1 15.6 14.2 72.1

5 6.3 12.6 1.8 48.2

6 0.1 5.1 14.4 80.2

7 1.3 23.3 9.4 78.1

8 2.0 41.5 21.0 34.9

9 ^1.8 44.7 8.2 42.8

10 ^0.1 ^4.5 9.8 59.5

Pada data cleaning diatas, atribut laboratory_id pada tabel data selection diubah menjadi atribut pasien dan atribut lain dihapus lalu digantikan dengan masing-masing jenis hasil pemeriksaan yang akan digunakan pada penelitian ini yaitu eosinofil, limfosit, monosit dan neutrofil. Data cleaning tersebut kemudian diberi label jenis infeksi untuk kemudian dapat dipergunakan pada proses training data. Data yang sudah diberi label jenis infeksi dapat dilihat pada Tabel 3.5.

Tabel 3.5 Sampel Data yang Sudah diberi Label Jenis Infeksi

Pasien Eosinofil Limfosit Monosit Neutrofil Klasifikasi

1 0.3 10.3 4.5 83.6 Virus

2 10.1 36.2 0.8 24.5 Bakteri

3 13.2 26.1 2.4 36.7 Bakteri

4 0.1 15.6 14.2 72.1 Virus

5 6.3 12.6 1.8 48.2 Bakteri

6 0.1 5.1 14.4 80.2 Virus

7 1.3 23.3 9.4 78.1 Virus

8 2.0 41.5 21.0 34.9 Bakteri

9 ^1.8 ^44.7 ^8.2 ^42.8 ^Bakteri

10 0.1 4.5 9.8 59.5 ^Virus

(40)

3.3.3. Menentukan nilai K

Tahap awal dalam proses klasifikasi menggunakan algoritma K-Nearest Neighbor adalah menentukan berapa nilai K yang digunakan pada penelitian ini. Pada tahap ini, ditentukan nilai K adalah 5.

3.3.4. Menghitung Jarak Antara Data yang Diuji dengan Data Training

Pada tahap ini menghitung jarak data baru yang akan diprediksi yaitu eosinofil = 14.9, limfosit = 20.6, monosit = 7.8, neutrofil = 65.6 dan kemudian dihitung dengan semua data training (data latih). Ilustrasi data baru (pasien 11) yang akan diprediksi jenis infeksinya dengan data latih yang sudah diberi label dapat dilihat pada Tabel 3.6.

Tabel 3.6 Sampel Data Baru dengan Data Latih yang Sudah diberi Label Pasien Eosinofil Limfosit Monosit Neutrofil Klasifikasi

1 0.3 10.3 4.5 83.6 Virus

2 10.1 36.2 0.8 24.5 Bakteri

3 13.2 26.1 2.4 36.7 Bakteri

4 0.1 15.6 14.2 72.1 Virus

5 6.3 12.6 1.8 48.2 Bakteri

6 0.1 5.1 14.4 80.2 Virus

7 1.3 23.3 9.4 78.1 Virus

8 2.0 41.5 21.0 34.9 Bakteri

9 ^1.8 44.7 8.2 42.8 Bakteri

10 0.1 4.5 9.8 59.5 ^Virus

11 14.9 20.6 7.8 65.6 ?

Selanjutnya, menghitung jarak antara data uji (data baru yang akan diprediksi) dengan data latih yang sudah diberil label. Hasil perhitungan jarak antara data uji dengan data latih didapat menggunakan Persamaan 2.1.

 Jarak Pasien 1 ke Pasien 11

h a h b i h a ab a

(41)

h a a h i h b ab a

a ⸹ ii

h a a h i h a i ab a

i b ⸹ b

h b a a h i h i ab a

i b ⸹

a h a a h i h ab a

ia i ⸹

h b a h i h ab a

i a ⸹ a ib

h a h i h i ab a

b a ⸹ i

h b a h i h ab a

i b ⸹ i

h i a h i h ab a

i ⸹ b ai

h b a h i h b b ab a

b a ⸹ i

(42)

3.3.5. Mengurutkan nilai jarak atau me-ranking berdasarkan K ke dalam kelompok yang mempunyai Euclid terkecil

Pada tahap ini, akan diurutkan hasil dari jarak terkecil ke jarak terbesar yang sudah dihitung menggunakan Persamaan 2.1 dan mengelompokkan data tersebut berdasarkan 5 tetangga terdekatnya karena K yang ditentukan pada penelitian ini merupakan K=5. Tabel untuk mengurutkan nilai jarak dapat dilihat pada Tabel 3.7.

Jarak yang termasuk kedalam nilai K=5 diberi highlight berwarna biru.

Tabel 3.7 Contoh Pengurutan Nilai Jarak Pasien Jarak Klasifikasi Urutan

1 25.57 Virus 5

2 44.77 Bakteri 10

3 29.95 Bakteri 7

4 18.09 Virus 1

5 21.83 Bakteri 3

6 26.75 Virus 6

7 18.73 Virus 2

8 41.47 Bakteri 9

9 35.67 Bakteri 8

10 22.79 Virus 4

3.3.6. Penentuan Klasifikasi

Dari hasil training, diperoleh bahwa data klasifikasi jenis infeksi yang mendominasi dan termasuk dalam kelompok tetangga terdekat (K=5) yaitu Infeksi Virus sehingga data uji baru (pasien 11) dengan nilai hasil pemeriksaan eosinofil = 14.9, hasil pemeriksaan limfosit = 20.6, hasil pemeriksaan monosit = 7.8 dan hasil pemeriksaan neutrofil = 65.6 secara otomatis masuk kedalam klasifikasi Infeksi Virus.

Klasifikasi ini didapat berdasarkan algoritma K-Nearest Neighbor yang bekerja sesuai dengan hasil data training yang sudah dihitung dan mendominasi.

(43)

3.4. Perancangan Antarmuka Sistem

Tampilan antarmuka sistem yang dibuat pada penelitian ini akan digunakan untuk proses pelatihan dan pengujian klasifikasi jenis infeksi pada hasil pemeriksaan leukosit.

3.4.1. Perancangan Menu Sistem

Struktur antarmuka yang akan dibuat pada sistem terdiri dari 3 menu yaitu menu judul, menu informasi dan menu hasil. Pada menu judul, akan ditampilkan judul tugas akhir yang telah diselesaikan. Sedangkan papa menu informasi akan ditampilkan ringkasan informasi mengenai leukosit sebagai bahan pemeriksaan untuk menghasilkan klasifikasi dan pada menu hasil akan ditampilkan form untuk memasukkan data yang akan dilatih dan diuji sehingga bisa menghasilkan klasifikasi. Perancangan menu sistem dapat dilihat pada Gambar 3.2.

Gambar 3.2 Perancangan Menu Sistem 3.4.2. Rancangan Tampilan Halaman Utama

Menu ini menampilan tampilan seperti halaman antarmuka. Pada halaman ini, terdapat tiga menu yaitu judul, informasi dan uji. Pada halaman ini, jika di-klik pada salah satu menu seperti informasi atau uji, maka secara otomatis akan langsung terarah ke halaman tujuan. Ilustrasi dari rancangan halaman ini ditunjukkan pada Gambar 3.3.

(44)

Gambar 3.3 Rancangan Tampilan Menu 3.4.3. Rancangan Tampilan Informasi

Pada halaman tampilan informasi, akan ditampilkan informasi seputar leukosit yang dapat diakses oleh pengguna melalui menu “informasi”. Ilustrasi dari rancangan halaman ini ditunjukkan pada Gambar 3.4.

Gambar 3.4 Rancangan Tampilan Informasi 3.4.4. Rancangan Tampilan Uji

Pada tampilan uji, terdapat dua jenis upload data yaitu upload data training dan upload data testing. Pada halaman upload data training dan upload data testing, data yang valid untuk dimasukkan hanya data dalam format Comma-separated values (CSV). Jika data yang dimasukkan tidak sesuai dengan format yang telah ditentukan, maka akan terjadi error. Ilustrasi dari rancangan halaman ini ditunjukkan pada Gambar 3.5.

(45)

Gambar 3.5 Rancangan Tampilan Uji 3.5. Hasil Akhir

Hasil akhir yang didapatkan dari aplikasi ini adalah klasifikasi jenis infeksi berdasarkan hasil pemeriksaan leukosit dan ditampilkan dalam bentuk tabel berisi data hasil dari testing. Tingkatan ini diukur berdasarkan hasil dari hasil pemeriksaan dan hasil rujukan. Pengguna juga dapat mengurutkan jenis infeksi berdasarkan infeksi tertentu dan dapat mencari index seperti apa yang diinginkan dengan menu search pada tabel. Rancangan halaman ini ditunjukkan pada Gambar 3.6.

Gambar 3.6 Rancangan Tampilan Hasil Akhir

(46)

3.6. Metode Evaluasi

Tahapan evaluasi digunakan untuk mengetahui performa sistem dalam mengklasifikasikan data yang mengandung infeksi bakteri atau virus yang diujikan ke dalam sistem. Tahapan evaluasi ini menerapkan aturan variabel pada tabel 2.1 dan perhitungan berdasarkan persamaan 3, 4 dan 5. Berikut contoh perhitungan evaluasi dengan total data uji sebanyak 10 ditampilkan pada Tabel 3.8.

Tabel 3.8. Contoh Implementasi Metode Evaluasi

No. Variabel Jumlah

1. True Positive (TP) 5

2. False Positive (FP) 1

3. True Negative (TN) 4

4. False Negative (FN) 0

Total 10

Berdasarkan data yang ada pada Tabel 3.8 maka dapat dihitung nilai precision, recall, serta f-score menggunakan Persamaan 2.3, 2.4 dan 2.5.

1. R

ecall =

_th^t

=

_h

= 1

2.

Precision =

_{th t}^t

=

_hh

= 0.83

3.

F-score =

_t^t _h

=

_{Ǥ hh}^Ǥ ^h

= 0.91

Hasil perhitungan metode evaluasi diatas menunjukkan nilai recall mencapai 100% kemudian precision mencapai 83% dan f-score dengan nilai mencapai 91%.

(47)

BAB 4

IMPLEMENTASI DAN PENGUJIAN SISTEM

Bab ini akan membahas tentang hasil yang diperoleh dari implementasi algoritma yang diajukan, yaitu K-Nearest Neighbor (KNN), untuk melakukan proses klasifikasi jenis infeksi berdasarkan hasil pemeriksaan leukosit. Bab ini akan menjabarkan hasil perancangan antarmuka yang digunakan dalam klasifikasi, prosedur operasional dari aplikasi yang dirancang, tahapan pengujian yang dilakukan, dan hasil yang didapat dari setiap pengujian.

4.1. Implementasi Sistem

Penelitian ini akan melakukan tahap preprocessing terlebih dahulu kemudian tahap training dan testing yang akan di proses menggunakan bahasa pemrograman Python, untuk visualisasi hasil pengujian akan diimplementasikan ke dalam sistem menggunakan bahasa pemrograman HTML yang diintegrasikan menggunakan library dari Python yaitu Flask.

4.1.1. Spesifikasi Perangkat Keras dan Perangkat Lunak yang Digunakan

Spesifikasi perangkat keras dan perangkat lunak yang digunakan untuk perangcangan sistem pada penelitian ini adalah sebagai berikut :

1. Prosesor Intel® Core™ i7-7500 CPU @ 2.70GHz 2.90 GHz 2. Kapasitas memori RAM sebesar 8 GB

3. Sistem operasi Windows 10 Pro 64-bit 4. Hard drive dengan kapasitas sebesat 1 TB

5. Software yang digunakan adalah Python versi 3.6, Anaconda 1.6.9, Pycharm 2018.1.4 Community Edition

(48)

6. Library yang digunakan adalah Flask versi 1.0.2, numpy versi 1.14.5 dan pandas versi 0.23.3.

4.1.2. Implementasi Perancangan Antarmuka

Perancangan antarmuka sistem dibuat berdasarkan rancangan yang telah dipaparkan pada Bab 3. Antarmuka aplikasi yang telah dirancang pada penelitian ini ditunjukkan oleh Gambar 4.1. Antarmuka yang dirancang terdiri dari halaman utama, dimana dalam halaman utama akan ditampilkan judul dari penelitian ini.

Gambar 4.1 Hasil Rancangan Antarmuka Halaman Utama

Kemudian terdapat halaman Informasi dimana user dapat melihat informasi mengenai leukosit yang hasil pemeriksaannya akan digunakan untuk proses training dan testing. Perancangan antarmuka halaman informasi akan ditunjukkan pada Gambar 4.2.

(49)

Setelah selesai dari menu informasi, selanjutnya akan ada menu hasil. Pada menu hasil, user bisa memasukkan data training dan data testing untuk bisa di klasifikasikan agar data-data tersebut dapat dikelompokkan sesuai dengan kelas masing-masing.

Perancangan antarmuka halaman hasil ditunjukkan pada Gambar 4.3.

Gambar 4.3 Perancangan Antarmuka Halaman Hasil

Pada menu hasil, akan ditampilkan dua form input untuk memulai proses klasifikasi. Namun, data yang diproses pada input hanyalah data dengan format Command-separated Values (CSV). Jika data yang dimasukkan tidak dalam format CSV, maka ketika diproses, halaman akan menunjukkan error. Setelah data selesai diproses dalam bentuk csv, maka akan beralih ke halaman hasil yang akan menampilkan hasil klasifikasi infeksi. Hasil perancangan antarmuka halaman hasil klasifikasi ditunjukkan pada Gambar 4.4. Penentuan klasifikasi jenis infeksi pada pemeriksaan leukosit yaitu dengan menghitung peningkatan dan penurunan jumlah neutrofil yang ada pada leukosit.

(50)

4.1.3. Implementasi Data

Data yang digunakan dalam penelitian ini bersumber dari sebuah rumah sakit dan klinik di kota Medan, dimana parameter-parameter klasifikasi jenis infeksi diukur dalam kurun waktu yang satu tahun yaitu pada tahun 2017, dan disimpan dalam format dokumen berbentuk numerik, dengan hasil pengukuran setiap parameter dipisahkan oleh tanda titik koma. Pengukuran dilakukan sebuah rumah sakit dan klinik dan dikumpulkan dalam satu file. File tersebut akan diolah terlebih dahulu dalam tahap preprocessing sehingga dihasilkan training dataset dan testing dataset yang nantinya akan di proses dengan algoritma K-Nearest Neighbor. Perincian dari file yang digunakan dalam penelitian ini ditunjukkan oleh Tabel 4.1.

Tabel 4.1. Perincian Data yang Digunakan Dalam Pelatihan

No Nama file Lokasi Jumlah Baris Data

1. darahlengkapusu.csv

salah satu Rumah Sakit di

Kota Medan

49328

Dalam penelitian ini penulis mengambil data dari rumah sakit sebagai data latih, dan nantinya akan dibagi menjadi data latih dan data validasi dengan pembagian data latih 80% dan data validasi 20%. Kemudian sebagian data akan dijadikan sebagai data uji, yang nanti nya akan digunakan untuk mengklasifikasi jenis infeksi setelah proses latih selesai. Pembagian dari data-data tersebut ditujukan pada Tabel 4.2.

Tabel 4.2. Pembagian Data Latih dan Data Uji No Keperluan Lokasi Awal Setelah

preprocessing Latih Uji

1. Training

salah satu Rumah Sakit di

Kota Medan

49328 2098 1678 420

(51)

4.2. Prosedur Operasional

Bagian ini akan memaparkan prosedur yang harus dilakukan dalam menggunakan aplikasi yang dikembangkan dalam penelitian ini. Setelah aplikasi dijalankan, pengguna dapat memasukkan data yang akan diproses oleh sistem. Data-data tersebut meliputi :

1. Data training : data yang digunakan sebagai data latih 2. Data testing : data yang digunakan sebagai data uji

Pengguna dapat memasukkan dataset training pada bagian upload dataset dengan memilih tombol “Choose file” pada halaman uji. Tombol choose file akan mengarahkan pengguna pada sebuah dialog pemilihan file, dimana file yang dapat dipilih di dalam dialog ini adalah dokumen numerik dengan format “.csv”. Jika file yang dipilih tidak termasuk dalam format .csv maka halaman akan menunjukkan kalimat error dan data tidak dapat diproses. Ilustrasi dari tahap pemilihan training dataset diunjukkan oleh Gambar 4.5. Sedangkan untuk memilih test dataset, tahapan yang dilakukan sama dengan ketika akan memasukka training dataset. Kemudian pengguna dapat memulai proses dengan menekan tombol proses dan nantinya hasil klasifikasi jenis infeksi yang sudah diproses akan muncul di halaman seperti ilustrasi yang sebelumnya ditunjukkan pada Gambar 4.5.

Gambar 4.5 Ilustrasi Pemilihan Training Data

(52)

Setelah data diinput, maka user siap untuk pengujian data dan hasil akan ditampilkan. Ilustrasi data yang sudah berhasil diinput dan akan dilakukan pengujian dapat dilihat pada Gambar 4.6.

Gambar 4.6 Ilustrasi Memulai Pengujian Data 4.3. Hasil Pengujian

Bagian ini akan memaparkan hasil yang didapatkan dari implementasi algoritma K- Nearest Neighbor (KNN) dalam melakukan proses klasifikasi jenis infeksi berdasarkan hasil pemeriksaan leukosit. Proses pengujian dilakukan sebanyak 6 kali dengan nilai K yang berbeda-beda seperti yang tampak pada Tabel 4.3.

Tabel 4.3 Proses Pengujian dengan Nilai K yang Berbeda No. Nilai K Jumlah Data Testing

1. 1 103

2. 3 103

3. 5 103

4. 7 103

5. 9 103

Pada setiap pengujian dataset, akan diberikan K yang berbeda-beda. Hasil dari percobaan ini nantinya akan didapatkan beberapa akurasi yang juga berbeda. Ilustrasi hasil dari percobaan dengan K=1 dan mendapat akurasi sebesar 90.7% dapat dilihat pada Gambar 4.7 untuk tampilan tabel di web.

(53)

Gambar 4.7. Hasil yang Diperoleh dengan Nilai K=1

Dari hasil pengujian diatas, didapatkan nilai rata – rata untuk precision, recall dan f-score sebesar 91%. Kemudian, perhitungan dengan menggunakan data sebanyak 10 sample dan Persamaan 2.1 dari percobaan dengan K=1 dapat dilihat pada Tabel 4.4.

Data yang termasuk kedalam K=1 diberi tanda dengan highlight biru yaitu pasien 4.

Tabel 4.4 Sampel Data dengan Nilai K=1 Pasien Jarak Klasifikasi Urutan