Fakultas Ilmu Komputer
Universitas Brawijaya
4194
Penerapan Metode Modified K-Nearest Neighbor pada Klasifikasi Penyakit
Menular Seksual Pria
Yoseansi Mantharora Siahaan1, Imam Cholissodin2, Putra Pandu Adikara3
Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya Email: 1[email protected], 2[email protected], 3[email protected]
Abstrak
Penularan penyakit menular seksual terbilang cepat. Menurut laporan WHO penderita dari infeksi ini dapat ditemukan setiap hari dengan populasi aktif secara seksual adalah remaja dan dewasa, terkhusus pada pria. Kemiripan pada gejala untuk masing-masing penyakit dan kurangnya pengetahuan masyarakat menjadi latar belakang penelitian ini dilakukan. Dengan mengembangkan algoritme
Modified K-Nearest Neighbor dan penggunakan jarak asimetrik biner didapatkan hasil pengujian
terhadap pengaruh nilai K sebesar 100% pada pengujian ke-9. Pengujian K-Fold = 10 mendapatkan hasil sebesar 91,67% dengan penggunakan K = 9. Dan nilai Presicion = 1 untuk kelas Gonore dan HIV, serta nilai recall = 1 untuk kelas Kutil dan HIV
Kata kunci: penyakit menular seksual, validasi, weigh voting, k-fold, confusion matrix Abstract
Sexually transmitted diseasse are a type of disease that spreads quite quickly. According to a World Health Organization (WHO) report, cases of infection that spread through sexual contact can be found every day with sexually active populations, namely adults and adolescents, especially men. The similarity in symptoms for each disease and patients are generally less familiar with the initial symptoms so they cannot provide early help. By developing the Modified K-Nearest Neighbor algorithm and using the asymmetric binary distance, the test result obtained on the effect of the K values of 100% in the 9th test. The K-Fold = 10 gets 91,67% results by using K = 9. And the Precision value = 1for Gonorrhea and HIV classes, and Recall value = 1 for the Warts and HIV classes.
Keywords: sexually transmitted diseases,validation, weight voting, k-fold, confusion matrix
1. PENDAHULUAN
Penyakit Menular Seksual (PMS) masih menjadi permasalahan dalam bidang kesehatan jika dilihat dari jumlah kasus yang diakibatkan oleh infeksi dari kontak seksual ini, Menurut laporan Organisasi Kesehatan Dunia (WHO), penyakit akibat infeksi menular seksual ini dapat ditemukan setiap hari. Setiap tahun terdapat kasus baru mencapai 376 juta kasus.
PMS merupakan salah satu dari beberapa penyakit utama yang menyerang dewasa muda laki-laki ataupun perempuan di negara berkembang. Keterkaitan remaja dalam hal ini disebabkan oleh berkembangnya kehidupan seksual diiringi dengan rasa ingin tahu remaja tentang seks. Perilaku ini kemudian membentuk kebiasaan melakukan hubungan seks pranikah dan tidak terkontrol. Hal tersebut dikarenakan
kurangnya pengetahuan remaja mengenai seks bebas dan dampak buruk akibat kebiasaan tersebut (Hartono, 2013). Kasus infeksi menular seksual ini sebagian besar dialami oleh kaum laki-laki. Kebiasaan berganti pasangan dalam melakukan hubungan seksual ditambah adanya penyimpangan seksual sesama jenis, infeksi yang dideriita oleh laki-laki dapat menyebar kepada orang lain. Beberapa PMS yang dapat menular adalah Sipilis, Gonore, Herpes, dan HIV/AIDS (Hartono, 2013).
PMS dapat ditangani dengan melakukan perawatan dan pemeriksaan dini. Namun beberapa orang yang terinfeksi salah dalam mengambil langkah awal atau bahkan tidak mengenali gejala yang dialaminya. Terlebih gejala yang terjadi cenderung gejala ringan sehingga menimbulkan salah dalam mengambil tindakan. Oleh karena itu, untuk melanjutkan
dalam upaya pengolahan data lebih baik dalam pengklasifikasian penyakit menular seksual khususnya pada pria, penelitian mengimplementasikan salah satu dari metode klasifikasi pada data mining yaitu algoritme
Modified K-Nearest Neighbor (MKNN). Algoritme tersebut dibentuk sebagai evolusi dari algoritme K-NN. Algoritme MKNN dibentuk untuk merampungkan keterbatasan dalam menghitung bobot dari anggota jarak terdekat dengan menggunakan weight voting. Pada MKNN terdapat proses tambahan untuk klasifikasi merupakan rancangan hitung nilai valid atas data latih dan weight voting untuk mengetahui nilai bobot atas tetangga terdekat. Kedua proses baru ini digunakan untuk menyempurnakan kegagalan pada algoritme K-NN (Prasetyo, 2012).
Penelitian mengenai klasifikasi pada penyakit menular seksual sudah pernah dilakukan sebelumnya. Penelitian tersebut menganalisis hasil kinerja pada metode
K-Means, Naive Bayes, dan K-Nearest Neighbor
(K-NN) dalam mengatasi permasalahan terkait dengan penelitian tersebut. Penelitian tersebut kemudian diketahui bahwa hasil akurasi tertinggi diperoleh oleh algoritme K-Nearest
Neighbor (K-NN) dengan tingkat akurasi 90%.
Hasil ini diperoleh saat menggunakan data latih cukup besar. Metode ini dinilai baik karena mampu menangani data noise. Namun dalam penelitian juga disebutkan bahwa terdapat beberapa data yang memiliki gejala mirip dengan jenis penyakit berbeda, sehingga menyebabkan hasil klasifikasi pada penyakit kurang optimal (Yuliastuti et al., 2018).
Penelitian lain terkait pendeteksi penyakit menular seksual dengan menerapkan rough set dan certainty factor. Rough Set pada penelitian ini berfungsi untuk melakukan analisis terhadap pencarian rule terbaik dan certainty factor berguna untuk perhitungan nilai keyakinan terhadap gejala. Hasil dari observasi tersebut memiliki akurasi sebesar 97,8116667% dengan random data uji sampling (Arijaya , R ., Cholissodin , I ., Soebroto, 2016).
Berdasarkan rangkaian permasalahan yang diuraikan dan pemaparan dari penelitian sebelumnya, maka laporan penelitian ini akan diberi judul “Penerapan Metode Modified
K-Nearest Neighbor pada Klasifikasi Penyakit
Kelamin Pria”.
2. LANDASAN KEPUSTAKAAN 2.1. Infeksi Menular Seksual
Beberapa penyakit dari infeksi menular pada pria yaitu:
1. Herpes
Infeksi ini ditandai oleh gejala awal yang didahului rasa gatal dan terbakar sebelum membentuk lesi. Adapun rasa nyeri di daerah bokong atau kelamin dan terbentuk benjolan kecil berwarna merah. Adanya rasa nyeri pada saat buang air, pembengkakan getah bening pada lipatan paha. Ditandai juga dengan sakit kepala, nyeri otot, dan suhu tubuh meningkat disertai flu.
2. Gonore
Kencing nanah (gonore) ditandai oleh frekuensi buang air kecil yang cukup sering dan adanya rasa nyeri. Kemudian terbentuk pembengkakan pada kulup genital dan tenggorokan sakit dalam jangka panjang. Apabila infeksi ini tidak ditandai dengan baik dapat terjadi komplikasi.
3. Sifilis
Infeksi ini terbagi atas tiga yaitu gejala primer, sekunder, dan tersier. Yang mana gejala tersebut digolongkan berdasarkan lamanya gejala dirasakan oleh tubuh.
4. Acquired Immunodeficiency Syndrome (AIDS)
Infeksi ini menyerang sistem yang mengatur keseimbangan kekebalan kondisi tubuh pada sel darah putih yang kemudian akan menyebabkan kelumpuhan. Kelumpuhan ini akan mengakibatkan munculnya oportunistik. 2.2. Modified k-Nearest Neighbor
Algoritme Modified K-Nearest Neighbor (MKNN) adalah metode yang memposisikan label setiap kelas yang sejalan dengan nilai k dari data berdasarkan poin untuk setiap data latih pada perhitungan validitas. Pada metode MKNN setiap sampel data latih harus memiliki nilai dari validitas berdasarkan titik yang sesuai dengan kelas tetangga yang ada. Validitas yaitu tahapan pada kalkulasi jumlah tetangga dengan kategori yang memiliki kemiripan pada seluruh data latih. Kalkulasi validitas diperoleh berdasarkan pada
nilai tetangga terdekat. Persamaan yang dipakai untuk memperoleh nilai validitas terhadap data latih sebagai berikut (Parvin, H. et al., 2010):
Adapun tahap-tahap perhitungan modified
k-nearest neighbour yaitu:
1. Menentukan nilai K yang akan digunakan 2. Melakukan perhitungan nilai validitas
terhadap data latih
Nilai validitas diperoleh setelah menghitung nilai jarak antar data latih kemudian melakukan perhitungan menggunakan rumus pada Persamaan 1:
𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠 =1 𝑘∑𝑖=1 𝑘 𝑆(𝑙𝑏𝑙 (𝑥), 𝑙𝑏𝑙 𝑁𝑖(𝑥)). Keterangan: k : Jumlah titik 𝑙𝑏𝑙(𝑥) : Kelas x
𝑁𝑖(𝑥) : Label kelas titik terdekat x
S : Kemiripan antara titik kelas x dan kelas titik terdekat x dengan nilai terdekat
Jika menghitung nilai kemiripan antara titik kelas x dan kelas titik x maka dibentuk variabel baru yaitu a dan b.
𝑺(𝑎, 𝑏) = {
0 𝑎 ≠𝑏1 𝑎=𝑏Pada Persamaan 2 nilai a merupakan kategori a pada data latih dan b merupakan kelas yang lain kecuali a yang terdapat dalam data latih.
3. Melakukan proses menghitung jarak dari kedekatan antar data latih dan data uji Rumus assymetric binary digunakan untuk mengkalkulasikan data jenis biner dari atribut dari fakta pendukung penyakit. Tabel 1. Tabel Kemungkinan pada Atribut Biner Data x Data y 1 0 ∑ 1 q r q + s 0 s t r + t ∑ q + s r + t P
Sumber: (Han, Jiawei & Kamber, 2012) Terdapat dua keadaan pada assymetric
binary untuk gejala penyakit yaitu atribut
yang bernilai positif (1) dan negatif (0). Untuk menghitung jarak digunakan rumus pada persamaan 2 (Han, Jiawei & Kamber, 2012).
𝒅 (𝒙, 𝒚) = 𝒓 + 𝒔 𝒒 + 𝒓 + 𝒔 Keterangan:
d : Jarak antar titik x dan y x : Titik pada data latih
y : Titik pada data uji
q : Kondisi data x=1 dan data y=1 r : Kondisi data x=1 dan data y=0
s : Kondisi data x=0 dan data y=1
t : Kondisi data x=0 dan data y=0
4. Melakukan perhitungan weight voting (w) Perhitungan w dilakukan sesuai dengan Persamaan 3. Kemudian nilai terbesar akan digunakan sejumlah K.
𝑊(𝑥, 𝑦) = 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠(𝑥) 𝑥 1 𝑑(𝑥, 𝑦) + 𝛼 Keterangan:
𝑾(𝒙, 𝒚) : Weighting Voting data ke x dan y
𝑽𝒂𝒍𝒊𝒅𝒊𝒕𝒚(𝒙): Nilai validitas data x 𝒅(𝒙, 𝒚) : Nilai jarak
𝜶 : Nilai Smoothing regulator (pemulusan)
5. Menemukan kelas data uji dari nilai w kelas terbesar
6. Menghitung akurasi berdasarkan ketentuan pengujian sebagai acuan
2.4. K-Fold Cross Validation
K-Fold Cross Validation merupakan satu
dari beberapa jenis pengobservasian dari cross
validation yang bertujuan sebagai penilai
kinerja dari sebuah proses kerja sebuah metode dengan mengelompokkan data contoh secara sembarang dan kemudian mengkategorikan data tersebut sejumlah nilai K-Fold.
Terdapat dua jenis menilai kapasistas dari tujuan K-Fold Cross-Validation (Refaeilzadeh, Payam. et al., 2009):
1. Mengukur hasil kinerja dari tipe penelaahan algoritme dengan memanfaatkan data yang ada. 2. Melakukan perbandingan terhadap
algoritme-algoritme untuk mengetahui penggunakan metode yang terbaik dalam menyelesaikan suatu permasalahan atau melakukan
perbandingan terhadap hasil kerja dua atau lebih parameter
2.5. Precision-Recall
Pembelajaran pengujian dengan memperhatikan spesifik dari tata letak tabel terhadap kinerja algoritme. Setiap baris dari matriks mewakili kelas prediksi sementara setiap kolom mewakili kelas aktual.
Tabel 2. Tabel Confusion Matrix Actual Positive (1) Actual Negative (0) Predicted Positive (1) True Positive (TP) False Positive (FP) Predicted Negative (0) False Negative (FN) True Negative (TN) 3. METODOLOGI PENELITIAN 3.1. Strategi Penelitian
Strategi penelitian pada
pengimplementasian dari algoritme MKNN dalam pengklasifikasian penyakit kelamin pria bersifat kuantitatif dengan mengumpulkan data kasus penderita penyakit kelamin pria dari RSUD Dr. Saiful Anwar Malang. Strateri yang digunakan pada penelitian adalah berupa dokumen dan wawancara dengan pihak RSUD Dr. Saiful Anwar Malang.
3.2. Teknik Pengumpulan Data
Data yang digunakan pada penelitian ini diperoleh dari RSUD Dr. Saiful Anwal Malang. Pengumpulan data dalam penelitian ini memiliki dua cara yaitu data primer dan sekunder. Data primer merupakan data yang diperoleh dari tim rekam medik. Data sekunder merupakan informasi yang diperoleh dari orang lain dan tidak dipersiapkan tetapi dapat digunakan pada penelitian ini yaitu data gejala penyakit kelamin pada pria.
4. HASIL DAN PEMBAHASAN
Berikut hasil dan pembahasan pada penelitian yang dilakukan.
4.1. Pengujian Pengaruh Perubahan Nilai K Pengukuran keakuratan perubahan nilai K dengan bervariasi sebagai berikut yaitu dari K=1 sampai dengan K=20 dengan jumlah data latih yang sama. .
Gambar 1 Grafik Pengujian Pengaruh Nilai K Dari tabel di atas ditunjukkan bahwa hasil tertinggi diperoleh oleh K=9, K=10, dan K=14. Hal tersebut menunjukkan adanya pengaruh nilai
K terhadap nilai keakuratan. Akan tetapi pada
observasi ini tidak mengalami perubahan signifikan karena kelas sasaran data uji memiliki data latih dengan kelas yang sama dengan jumlah yang cukup..
4.2. Pengujian K-Fold Cross Validation Pengujian K-Fold ini memiliki tujuan untuk mengetahui dampak jumlah komposisi data latih terhadap tingkat ketepatan yang dihasilkan. Komposisi data diatur berdasarkan nilai K-Fold yang ditentukan. Pada penelitian ini diberlakukan nilai K-Fold=10.
Gambar 2. Grafik Pengujian K-Fold Cross
Validation
Dari grafik di atas dapat disimpulkan bahwa hasil sistem menggolongkan data masukkan pada 10-Fold dan K=9 memperoleh rata-rata sebesar 91,667% yang memiliki persentase paling tinggi pada iterasi ke 3, 4, 5, 7, 9, dan 10 sebesar 100%.
4.3. Pengujian Performa Antar Kelas
Berikut total hasil dari klasifikasi kelas aktual dan prediksi ditunjukkan pada Tabel 2.
Tabel 3. Tabel Confusion Matrix 0 50 100 150 1 4 7 10 13 16 19 A ku rasi Nilai K
Pengaruh Nilai K
Pengaruh Nilai K 0 50 100 150 1 3 5 7 9 Per sen tase ( % ) foldK=9
K=9Aktual
Prediksi Herpes Gonore Kutil Sifilis HIV
Herpes 6 1 0 1 0
Gonore 0 4 0 0 0
Kutil 0 2 6 0 0
Sifilis 1 0 0 4 0
HIV 0 0 0 0 5
Dengan hasil perhitungan Precision-Recall sebagai berikut:
Metrik
Evaluasi Herpes Gonore Kutil Sipilis HIV
Precision 0,75 1 0,75 0,8 1
Recall 0,86 0,571 1 0,8 1
Berdasarkan hasil kalkulasi pengujian
precision-recall dengan menggunakan data latih
dan uji masing-masing bernilai 30 dapat simpulkan hasil dari precision hampir mendekati 1 untuk setiap penyakit dan dapat dikatakan baik. Begitu pula dengan recall, meskipun bernilai sedikit rendah pada penyakit Gonore. 5. KESIMPULAN
Berdasarkan hasil penjelasan pengujian pada bab sebelumnya mengenai klasifikasi penyakit menular seksual pada pria dengan menerapkan
Modified K-Nearest Neighbor maka kesimpulan
yang dapat diperoleh adalah:
1. Algoritme Modified K-Nearest Neighbor dapat diterapkan dalam pengklasifikasian penyakit menular seksual pria dengan melalui tahapan menghitung jarak antar data, mencari nilai validitas, diakhiri dengan menghitung weight voting. Keakuratan sistem diukur berdasarkan pengujian dilakukan berdasarkan nilai k yang telah ditentukan.
2. Kesimpulan terhadap pengujian adalah sebagai berikut:
a. Berdasarkan pengujian terhadap pengaruh nilai K diperoleh persentase optimum sebesar 100% pada pengujian 9. Pada pengujian tersebut menggunakan K=1 hingga
K=20 karena hasil persentase yang
berdekatan dan minimnya jumlah data serta menununjukkan bahwa semakin tinggi jumlah tetangga
maka akan meningkat jumlah pertimbangan yang dilakukan. b. Berdasarkan pengujian pengaruh
nilai K-Fold diperoleh hasil optimum dengan persentase sebesar 91,667% dengan penggunakan
K-Fold=10 dan K=9. Dari pengujian K-Fold ini menunjukkan tidak
terdapat perubahan signifikan karena keminiman jumlah data, gejala, dan kemiripan gejala pada data antar kelas.
c. Berdasarkan pengujian performa antar kelas diperoleh hasil optimum
precision=1 untuk kelas Gonore
dan HIV serta recall=1 untuk kelas Kutil dan HIV.
6. DAFTAR REFERENSI
Arijaya , R ., Cholissodin , I ., Soebroto, A. . (2016). Implementasi Metode Rough Set
dan Certainty Factor untuk Deteksi dini Penyakit Menular Seksual ( Studi Kasus : Puskesmas Dinoyo Kota Malang )’, DORO : Repository Jurnal Mahasiswa PTIIK Universita.
Han, Jiawei, & Kamber, M. (2012). Data Mining
Concepts and Techniques 3rd Edition.
Morgan Kaufmann Publishers is an imprint of Elsevier.
Hartono, A. (2013). Faktor Risiko Kejadian Penyakit Menular Seksual (Pms) Pada Komunitas Gay Mitra Strategis Perkumpulan Keluarga Berencana Indonesia (Pkbi) Yogyakarta. Journal of
Chemical Information and Modeling,
53(9), 1689–1699.
https://doi.org/10.1017/CBO9781107415 324.004
Parvin, H., Alizadeh, H., & Minati, B. (2010). A Modification on K-Nearest Neighbor Classifier. Global Journal of Computer
Science and Technology, 10 (14), 37–41.
Prasetyo, E. (2012). Data Mining: Konsep dan
Aplikasi menggunakan MATLAB. ANDI
OFFSET.
Refaeilzadeh, Payam., Tang, Lei., & Liu, H. (2009). Encyclopedia of Database System. Yuliastuti, G. E., Alfiyatin, A. N., Rizki, A. M., Hamdianah, A., Taufiq, H., & Mahmudy, W. F. (2018). Performance analysis of
data mining methods for sexually transmitted disease classification.
International Journal of Electrical and Computer Engineering, 8(5), 3933–3939.
https://doi.org/10.11591/ijece.v8i5.pp393 3-3939