PENUTUP - KLASIFIKASI STATUS GIZI BALITA MENGGUNAKAN METODE MODIFIED K-NEAREST NEIGHBORS (MKNN)

Bab ini berisi kesimpulan serta saran dari penelitian mengenai penerapan metode Modified K-Nearest Neighbors pada klasifikasi status gizi balita.

6 BAB II LANDASAN TEORI

2.1. Status Gizi

Status gizi merupakan salah satu unsur penting dalam membentuk status kesehatan. Status gizi adalah keadaan yang diakibatkan oleh keseimbangan antara asupan zat gizi dari makanan dan kebutuhan zat gizi oleh tubuh. Status gizi sangat dipengaruhi oleh asupan gizi. Pemanfaatan zat gizi dalam tubuh dipengaruhi oleh dua faktor, yaitu primer dan sekunder. Faktor primer adalah keadaan yang mempengaruhi asupan gizi dikarenakan susunan makanan yang dikonsumsi tidak tepat, sedangkan faktor sekunder adalah zat gizi tidak mencukupi kebutuhan tubuh karena adanya gangguan pemanfaatan zat gizi di dalam tubuh.

2.2. Penilaian Status Gizi

Menilai status gizi dapat dilakukan melalui beberapa metode pengukuran, tergantung pada jenis kekurangan gizi. Hasil penilaian status gizi dapat menggambarkan tingkat kekurangan gizi, misalnya status gizi yang berhubungan dengan kesehatan atau berhubungan dengan penyakit tertentu. Antropometri adalah pengukuran tubuh manusia sebagai metode untuk menentukan status gizi.

Konsep dasar antropometri untuk mengukur status gizi adalah konsep pertumbuhan. Pertumbuhan adalah terjadinya perubahan sel-sel tubuh, terdapat dalam dua bentuk yaitu bertambah jumlah sel dan atau terjadinya pembelahan sel, secara akumulatif menyebabkan terjadinya perubahan tubuh. Jadi dasarnya menilai status gizi menggunakan metode antropometri adalah menilai pertumbuhan tubuh.

Pengkategorian parameter tinggi, berat dan BMI (body mass index) dalam penelitian ini berdasarkan pada Keputusan Menteri Kesehatan Republik Indonesia Nomor: 1995/Menkes/SK/XII/2010 tentang standar Antropometri

Penilaian Status Gizi anak. Kategori dan ambang batas status gizi anak dapat dilihat pada tabel 2.1 di bawah ini:

2.3. Knowledge Discovery in Database

Knowledge discovery in database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Data mining merupakan salah satu tahapan dalam keseluruhan proses KDD. Secara garis besar proses KDD adalah sebagai berikut:

1. Data Cleaning

Sebelum proses data mining dapat dilaksanakan perlu dilakukan proses cleaning pada data yang menjadi focus KDD. Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi), selain itu juga dilakukan proses enrichment atau biasa dikatakan proses

“memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.

Antropometri BB/U

Kategori Status Gizi Ambang Batas (Z-Score)

Gizi Buruk < -3 SD

Gizi Kurang >= -3 SD s.d <-2 SD Gizi Baik >= -2 SD s.d <=2 SD

Gizi Lebih > 2 SD

Antropometri BB/U atau PB/U Kategori Status Gizi Ambang Batas (Z-Score)

Sangat Pendek < -3 SD

Pendek >= -3 SD s.d <-2 SD

Normal >= -2 SD s.d <=2 SD

Tinggi > 2 SD

Antropometri BB/TB atau BB/PB Kategori Status Gizi Ambang Batas (Z-Score)

Sangat Kurus < -3 SD

Kurus >= -3 SD s.d <-2 SD

Normal >= -2 SD s.d <=2 SD

Gemuk > 2 SD

Tabel 2.1 Tabel Standar Penilaian Status Gizi

2. Data Selection

Pemilihan atau seleksi data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang digunakan untuk proses data mining disimpan dalam suatu berkas terpisah dari basisdata operasional.

3. Data Transformation

Data transformation merupakan proses untuk mengubah bentuk data ke bentuk yang sesuai untuk digunakan. Dalam penelitian ini metode transformasi data yang digunakan adalah metode min-max yang berfungsi untuk normalisasi.

4. Data Mining

Data Mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algortima yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.

5. Interpretation / Evaluation

Pada tahap ini, hasil data mining diperlihatkan kepada pengguna sehingga informasi yang diperoleh dapat digunakan. hasil ini dapat dijelaskan melalui visualisasi atau tampilan tertentu agar pengguna dapat memahaminya dengan lebih jelas. Tahap ini juga termasuk pengujian terhadap hasil yang ditemukan apakah sudah sesuai fakta sebelumnya.

2.4. Data Mining

Secara sederhana data mining merupakan penambangan atau penemuan informasi baru dengan mencari pola atau aturan tertentu dari sejumlah data yang besar (Davies, 2004). Data mining biasa juga disebut dengan knowledge discovery atau menemukan pola tersembunyi pada data. Proses menganalisa data dari perspektif yang berbeda dan menyimpulkannya kedalam informasi yang

berguna, proses tersebut dapat dikatakan proses data mining (Segall et. All, 2008). Data mining juga sering dikatakan sebagai kegiatan menemukan pola yang menarik dari data dalam jumlah besar, data dapat disimpan dalam database, data warehouse, atau penyimpanan informasi lainnya. Data mining berkaitan langsung dengan bidang ilmu-ilmu lain seperti database sistem, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network, pengenalan pola, spattial data analysis, image database, signal processing (Han, 2006).

Menurut Gartner Group data mining merupakan suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti statistic dan matematika (Larose, 2005). Berdasarkan beberapa pengertian tersebut dapat ditarik kesimpulan bahwa data mining adalah proses menggali informasi berharga yang terpendam atau tersembunyi pada suatu koleksi data yang besar dengan menggunakan teknik pengenalan pola seperti statistic dan matematika sehingga ditemukan suatu pola menarik yang sebelumnya tidak diketahui. Terdapat dua pengelompokkan penambangan data berdasarkan bagaimana pembelajarannya, yaitu:

1. Supervised Learning merupakan pembelajaran menggunakan guru dan biasanya menggunakan kelas atau label pada himpunan datanya.

2. Unsupervised Learning merupakan pembelajaran tanpa guru dan biasanya tidak ada kelas atau label pada himpunan datanya.

Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005):

1. Deskripsi

Deskripsi bertujuan untuk mengindetifikasi pola yang muncul secara berulang pada suatu data dan mengubah pola tersebut menjadi aturan dan kriteria yang mudah dimengerti oleh para ahli pada domain aplikasinya. Aturan yang dihasilkan harus mudah dimengerti agar dapat efektif meningkatkan pengetahuan pada sistem.

2. Prediksi

Prediksi memiliki kemiripan dengan klasifikasi, akan tetapi data diklasifikasikan berdasarkan perilaku atau nilai yang diperkirakan pada masa yang akan datang.

3. Estimasi

Estimasi hampir sama dengan prediksi, variabel target estimasi lebih ke arah numerik dari pada ke arah kategori.

4. Klasifikasi

Merupakan proses menemukan sebuah model atau fungsi yang mendeskripsikan dan membedakan data ke dalam kelas-kelas.

5. Klaster

Merupakan pengelompokan sejumlah data yang mempunyai kemiripan ke dalam kelompok-kelompok data.

6. Asosiasi

Teknik yang digunakan untuk mencari hubungan antara karakteristik tertentu dalam satu waktu.

2.5. Klasifikasi Pada Data Mining

Klasifikasi merupakan proses menemukan model atau fungsi yang menjelaskan dan membedakan kelas-kelas data, fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahapan pelatihan (learning) dan tahap uji (testing). Pada tahap pelatihan, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi (Han dan Kamber, 2006).

2.6. Metode K-Nearest Neighbor (KNN)

Metode k-Nearest Neighbor merupakan salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine learning.

Menurut (Han dan Kamber, 2006), metode KNN memiliki sifat lazy learners dimana proses pembelajarannya menunggu hingga menit terakhir sebelum model yang dibangun dibutuhkan untuk mengklasifikasi data uji. KNN merupakan sebuah metode untuk melakukan klasifikasi terhadap objek berdasarkan data pembelajaran yang jaraknya paling dekat dengan objek tersebut. Data pembelajaran diproyeksikan ke ruang berdimensi banyak, dimana masing-masing dimensi merepresentasikan fitur atau ciri dari data.

2.7. Metode Modified K-Nearest Neighbor (MKNN)

MKNN merupakan pengembangan dari metode KNN yang diberi tambahan beberapa proses, yaitu validasi data latih dan weight voting. Tujuan utamanya adalah menentukan referensi prediksi sistem terhadap kelas data yang akan diuji. Dalam MKNN dilakukan proses validitas data latih terlebih dahulu setelah menghitung jarak, kemudian dilakukan weighting untuk setiap data uji sebelum mengklasifikasi objek ke dalam kelas tertentu. Validasi dalam hal ini digunakan untuk mencari jumlah titik yang memiliki kategori atau label yang sama pada semua data latih, kemudian hasilnya digunakan sebagai informasi tambahan mengenai data tersebut. Karena adanya validasi pada data latih, metode

MKNN dapat menghasilkan akurasi yang lebih tinggi dibandingkan KNN.

Metode MKNN ini mengoptimalkan data latih yang memiliki validitas tinggi dan memiliki jarak terdekat dengan data uji, sehingga jika terdapat data yang tidak stabil, hal itu tidak banyak berpengaruh dalam pemberian label atau kelas pada objek (Parvin, 2008). Langkah-langkah metode Modified K-Nearest Neighbors adalah sebagai berikut:

1. Menentukan nilai k tetangga terdekat.

2. Menghitung jarak antar data latih menggunakan Euclidean distance.

Euclidean distance merupakan metode perhitungan jarak dari dua buah titik dalam Euclidean space. Euclidean ini berkaitan dengan Teorema Phytagoras dan biasanya diterapkan pada 1,2 dan 3 dimensi, tapi juga sederhana jika diterapkan pada dimensi yang lebih tinggi. Persamaan (2.1) mendefinisikan metode Euclidean distance yang digunakan dalam penelitian ini.

𝑑(𝑥, 𝑦) = √∑(𝑥_𝑖 − 𝑦_𝑖)² 3. Validasi Data Latih

Pada metode MKNN setiap data latih harus divalidasi. Validasi setiap data tergantung pada setiap tetangganya. Setelah dihitung validitas tiap data maka nilai validitas tersebut digunakan pada perhitungan weight voting.

Persamaan yang digunakan untuk menghitung validitas dari setiap data latih didefinisikan pada persamaan (2.2) berikut ini:

𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠(𝑥)1

Fungsi S digunakan untuk menghitung kesamaan antara titik x dam data ke-I tetangga terdekat. Persamaan untuk mendefinisikan fungsi S terdapat pada persamaan (2.3).

Persamaan (2.3) menunjukan bahwa a dan b adalah label kelas kategori suatu data latih. S bernilai 1 jika label kategori a sama dengan label kategori b. S bernilai 0 jika label kategori a tidak sama dengan label kategori b.

4. Menghitung jarak Euclidean antara data latih dengan data uji menggunakan Persamaan (2.1).

5. Menghitung Weight Voting

Weight voting merupakan salah satu variasi dari metode KNN yang menggunakan k tetangga terdekat dan hasil perhitungan dari jarak masing-masing data. Pada variasi metode KNN, weighted KNN, bobot setiap tetangganya dihitung menggunakan persamaan (2.4).

𝑊_(𝑖) = 1 𝑑 + 𝑎

(2.4)

dimana:

W(i) : bobot setiap tetangga

d : jarak Euclidean data uji dengan data latih a : smoothing regulator, bernilai 0,5

Pembobotan ini kemudian dijumlahkan untuk setiap kelas dan yang dipilih adalah kelas dengan total terbesar. Validitas data latih dikalikan dengan bobot tersebut berdasarkan pada jarak Euclidean, sehingga didapatkan perhitungan weight voting pada MKNN yang didefinisikan oleh persamaan (2.5).

𝑊_(𝑖) = 𝑉𝑎𝑙𝑖𝑑𝑖𝑡𝑎𝑠_(𝑖)× 1 𝑑 + 0.5

(2.5) dimana:

W(i) :weight voting

Validitas(i) : nilai validitas

d : jarak data uji dengan data latih

Weight voting pada MKNN berpengaruh besar pada data yang memiliki nilai validitas lebih tinggi dan lebih dekat dengan data uji. Perkalian nilai validitas dengan bobot pada persamaan (2.5) dapat mengatasi kelemahan dalam hal outlier.

6. Menentukan kelas data uji

Untuk menentukan kelas data uji, diambil nilai weight voting terbesar. Kelas data dari nilai weight voting yang paling besar dijadikan kelas untuk data uji.

2.8. K-fold Cross Validation

Perhitungan akurasi dilakukan dengan menggunakan metode cross validation dan confusion Matrix. Pada metode ini, dilakukan pembagian data menjadi k subset atau fold yang saling bebas secara acak, yaitu S1, S2, …, Sk,

Tahap I

Tahap II

Tahap III

dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subset S1 diperlakukan sebagai data pengujian, dan subset lainnya sebagai data pelatihan. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah instance pada awal (Han dan Kamber, 2006). Berikut contoh tahapan cross validation dengan 3-fold:

fold 1 fold 2 fold 3 Testing Training Training

Training Testing Training

Training Training Testing

Keterangan:

Tahap I

i. fold 1 sebagai data uji ii. fold 2 sebagai data latih iii. fold 3 sebagai data latih Tahap II

i. fold 1 sebagai data latih ii. fold 2 sebagai data uji iii. fold 3 sebagai data latih Tahap III

i. fold 1 sebagai data latih ii. fold 2 sebagai data latih iii. fold 3 sebagai data uji

2.9. Confusion Matrix

Confusion matrix adalah metode atau alat yang digunakan sebagai evaluasi model klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari prediksi yang dibandingkan dengan kelas sebenarnya atau dengan kata lain berisi informasi nilai sebenarnya dan prediksi pada klasifikasi (Gorunescu, 2011: 319). Tabel 2.2 berikut merupakan contoh table confusion matrix 2 dimensi.

Accuracy dihitung menggunakan persamaan (2.6) di bawah ini:

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁𝑥 100%

(2.6) dimana:

TP : jumlah positive yang diklasifikasikan sebagai positive.

TN : jumlah negative yang diklasifikasikan sebagai negative.

FP : jumlah negative yang diklasifikasikan sebagai positive.

FN : jumlah positive yang diklasifikasikan sebagai negative.

Prediksi

Positive Negative

Nilai Aktual

Positive TP (True Positive) FN (False Negative)

Negative FP (False Positive) TN (True Negative) Tabel 2.2 Confusion Matrix

17 BAB III

METODE PENELITIAN

3.1. Gambaran Umum Sistem

Pada sistem ini terdapat 5 proses yang dijalankan yaitu proses input data, proses seleksi data, proses transformasi data, proses klasifikasi menggunakan metode Modified K-Nearest Neighbors dan proses perhitungan akurasi sistem.

Alur tahapan proses sistem secara umum dapat dilihat pada gambar 3.1 di atas.

Gambar 3.1 Gambaran Umum Sistem

3.2. Dataset

Data yang digunakan dalam penelitian ini adalah data Pemantauan Status Gizi (PSG) 2017 Dinas Kesehatan Kabupaten Sintang, Provinsi Kalimantan Barat. Data tersebut disajikan dalam bentuk file .xls. dengan total data sebanyak 850, data tersebut memiliki 19 atribut dan 3 klasifikasi yang memiliki 4 label yaitu “Buruk, Kurang, Baik, Lebih" untuk klasifikasi status gizi BB/U, 4 label yaitu “Sangat kurus, Kurus, Normal, Gemuk” untuk klasifikasi status gizi BB/PB dan 4 label yaitu “Sangat pendek, Pendek, Normal, Tinggi”untuk klasifikasi status gizi PB/U. Total atribut data yang digunakan dalam penelitian ini sebanyak 5 kemudian diklasifikasikan ke dalam 3 kelas yaitu BB/U, PB/U dan BB/PB.

Penjelasan atribut yang digunakan dapat dilihat pada tabel 3.1 dan contoh datanya dapat dilihat pada tabel 3.2 berikut ini:

No Atribut Keterangan

1 Js.L/P Jenis kelamin balita, untuk laki-laki = 1

6 BB/U Kelompok kelas berdasarkan berat badan / umur, terdapat 4 label yang digunakan dalam kelas ini yaitu Buruk, Kurang, Baik dan Lebih.

Tabel 3.1 Atribut Dataset PSG

7 PB/U Kelompok kelas berdasarkan panjang badan / umur atau tinggi badan / umur, terdapat 4 label yang digunakan dalam kelas ini yaitu Sangat Pendek, Pendek, Normal dan Tinggi.

8 BB/PB Kelompok kelas berdasarkan berat badan / panjang badan atau berat badan / tinggi badan, terdapat 4 label yang digunakan dalam kelas ini yaitu Sangat Kurus, Kurus, Normal dan Gemuk.

Tabel 3.2 Contoh Dataset PSG

3.3. Seleksi Data

Pada tahap ini dilakukan proses seleksi data untuk memilih atribut relevan yang dibutuhkan dan menghapus atribut yang tidak relevan untuk penelitian.

Proses seleksi data ini dilakukan secara manual menggunakan aplikasi Microsoft Excel 2016. Atribut yang digunakan dalam sistem klasifikasi status gizi balita ini adalah atribut yang juga digunakan dalam rumus untuk menghitung status gizi pada data excel yang asli dan tidak diperoleh dari hasil hitungan atribut lain pada data excel. Atribut data yang dihapus dapat dilihat pada tabel 3.3 berikut:

No Atribut

1 Nama

2 Tanggal Lahir

3 Proses perhitungan umur 4 Konfersi TB/PB

5 Kelompok umur 6 Kode

7 Kode 2 8 Kode 3

9 Standart Gizi Buruk BB/U 10 Standart Gizi Baik BB/U

11 Standart Pendek PB/U atau TB/U 12 Standart Normal PB/U atau TB/U 13 Standart Kurus BB/PB atau BB/TB 14 Standart Normal BB/PB atau BB/TB

Tabel 3.3 Atribut data yang dihapus

3.4. Transformasi Data

Setelah proses seleksi data, kemudian dilakukan proses transformasi data.

Dalam penelitian ini proses transformasi data yang dilakukan adalah normalisasi menggunakan MinMaxScaler. Hal ini dilakukan agar data atribut dapat dikemas ke dalam skala yang lebih kecil yaitu min=0 dan max=1 sehingga rentang data tidak terlalu jauh berbeda. Contoh data sebelum dilakukan normalisasi dapat dilihat pada tabel 3.4 berikut:

No Js.L/P Berat B PB/TB Posisi diukur Umur

Sebagai contoh digunakan data pada kolom kedua yaitu Berat B untuk dilakukan normalisasi min-max. Persamaan 3.1 berikut merupakan persamaan yang digunakan untuk menghitung MinMaxScaler.

𝑋_{𝑠𝑐𝑎𝑙𝑒𝑑} = 𝑋 − 𝑋_𝑚𝑖𝑛 𝑋_𝑚𝑎𝑥− 𝑋_𝑚𝑖𝑛

(3.1) dimana:

Xscaled : Nilai hasil normalisasi

X : Nilai yang akan dinormalisasi Xmin : Nilai minimal dari kolom data X Xmax : Nilai maksimal dari kolom data X

Tabel 3.4 Contoh Data Sebelum Normalisasi

Maka langkah-langkah normalisasi menggunakan MinMaxScaler sebagai berikut:

1. Pertama cari nilai maksimum (Xmax) dan nilai minimum (Xmin) pada kolom data X yang dilakukan normalisasi, pada kasus ini kolom yang dinormalisasi sebagai contoh adalah kolom Berat B. Data kolom Berat B dapat dilihat pada tabel 3.4, berdasarkan data pada kolom Berat B diperoleh min= 4.6 dan max=93.

2. Kemudian hitung normalisasi setiap data pada kolom Berat B menggunakan persamaan 3.1.

 Data ke 7 = 93

3. Setelah perhitungan normalisasi MinMaxScaler dilakukan maka diperoleh hasil normalisasi kolom 2 yaitu Berat B yang dapat dilihat pada tabel 3.5

Selanjutnya lakukan normalisasi untuk data pada kolom 1,3,4 dan 5 dengan cara yang sama seperti langkah 2 di atas. Hasil normalisasi untuk semua kolom data dapat dilihat pada tabel 3.6 berikut ini:

Tabel 3.5 Normalisasi Kolom Berat B

No Js.L/P Berat B PB/TB Posisi

3.5. K-fold Cross Validation

Pada bagian ini data yang digunakan dibagi menjadi 2 yaitu data latih dan data uji sesuai dengan k-fold Cross Validation. Jumlah k dalam k-fold diinputkan oleh pengguna. Dalam penelitian ini dilakukan percobaan menggunakan 3-fold Cross Validation artinya dilakukan 3 kali percobaan dengan data latih dan uji yang berbeda disetiap percobaan. Data dipecah menjadi 3 bagian, 2/3 dari data dijadikan data latih dan 1/3 dijadikan data uji. Dalam pembagian data menggunakan fungsi k-fold pada library python, banyaknya fold wakili oleh parameter n_splits. Langkah-langkah pembagian data menggunakan k-fold adalah sebagai berikut:

1. Pertama tentukan jumlah n_folds = [int(self.K-fold.text())], n_folds yang digunakan sesuai dengan masukan pengguna pada kolom K-fold.

2. kf = K-fold(n_splits=n), menampung indeks data latih dan index data uji.

3. train_index, test_index in kf.split(attr), untuk setiap train_index dan test_index di dalam kf lakukan langkah 4 dan 5.

4. Masukan indeks data latih ke variabel x_train _index = train_index.

5. Masukan indeks data uji ke variabel x_test_index = test_index.

Tabel 3.6 Normalisasi Semua Data

Berikut contoh pembagian data hasil normalisasi pada tabel 3.6 di atas menggunakan 3-fold Cross Validation:

a. Fold pertama

Hasil pembagian data untuk fold pertama seperti pada table 3.7 di bawah ini:

Js.L/P Berat B PB/TB Posisi

diukur Umur

TEST

0 0,038461538 0,717342342 0 0,098039216

1 0 0,609234234 0 0,039215686

0 0,021493213 0,591216216 0 0

TRAIN

0 0,029411765 0,703828829 0 0,117647059 1 0,037330317 0,808558559 0 0,137254902

0 0,074660633 1 1 0,62745098

0 1 0,864864865 1 1

1 0,061085973 0,941441441 1 0,784313725

1 0,030542986 0 0 0,450980392

b. Fold kedua

Hasil pembagian data untuk fold kedua seperti pada table 3.8 di bawah ini:

Js.L/P Berat B PB/TB Posisi

diukur Umur

TRAIN

0 0,038461538 0,717342342 0 0,098039216

1 0 0,609234234 0 0,039215686

0 0,021493213 0,591216216 0 0

TEST

0 0,029411765 0,703828829 0 0,117647059 1 0,037330317 0,808558559 0 0,137254902

0 0,074660633 1 1 0,62745098

TRAIN

0 1 0,864864865 1 1

1 0,061085973 0,941441441 1 0,784313725

1 0,030542986 0 0 0,450980392

Tabel 3.7 Contoh data fold pertama

Tabel 3.8 Contoh data fold kedua

c. Fold ketiga

Hasil pembagian data untuk fold kedua seperti pada table 3.9 di bawah ini:

Js.L/P Berat B PB/TB Posisi

diukur Umur

TRAIN

0 0,038461538 0,717342342 0 0,098039216

1 0 0,609234234 0 0,039215686

0 0,021493213 0,591216216 0 0

0 0,029411765 0,703828829 0 0,117647059 1 0,037330317 0,808558559 0 0,137254902

0 0,074660633 1 1 0,62745098

TEST

0 1 0,864864865 1 1

1 0,061085973 0,941441441 1 0,784313725

1 0,030542986 0 0 0,450980392

3.6. Pemisahan Data

Pada penelitian ini data testing dibagi menjadi 2 bagian, pertama data testing tanpa label yang berisi jenis kelamin, umur, berat badan, tinggi / panjang badan dan posisi ukur. Kedua data testing yang memiliki label atau kelas.

Kemudian dibagi menjadi lagi menjadi tiga bagian karena pada penelitian ini dilakukan klasifikasi tiga kelas yaitu BB/U, TB/U dan BB/TB. Pertama buat variable x_test dan y_test untuk menampung data test tanpa label dan yang memiliki label. Kemudian masukkan data test yang hanya berisi atribut atau data test yang tidak memiliki label ke variabel x_test, selanjutnya masukkan data label ke variabel y_test.

3.7. Klasifikasi Modified K-Nearest Neighbors

Setelah data melalui tahap preprocessing, penambangan data menggunakan metode Modified K-Nearest Neighbors siap dilakukan. Dalam metode Modified K-Nearest Neighbors dilakukan proses perhitungan jarak Euclidean setiap data latih, proses validasi data latih, proses perhitungan jarak Euclidean data latih dan data uji, proses perhitungan Weight Voting serta

Tabel 3.9 Contoh data fold ketiga

menentukan kelas data uji. Alur proses metode Modified K-Nearest Neighbors dapat dilihat pada gambar 3.2.

Untuk memperjelas bagaimana metode Modified K-Nearest Neighbors bekerja dalam proses klasifikasi status gizi balita, berikut contoh perhitungan manual berdasarkan PB/U:

a. Data yang digunakan adalah data hasil normalisasi pada Tabel 3.6.

b. 3-fold Cross Validation.

c. Modified K-Nearest Neighbors menggunakan k = 3 (tetangga terdekat).

d. Hitung jarak euclidean setiap data training pada tabel 3.10 menggunakan persamaan 2.1.

Gambar 3.2 Alur Proses Metode Modified k-nearest neighbors

Js.L/P Berat B PB/TB Posisi

diukur Umur

TEST

0 0.038461538 0.717342342 0 0.098039216

1 0 0.609234234 0 0.039215686

0 0.021493213 0.591216216 0 0

TRAIN

0 0.029411765 0.703828829 0 0.117647059 1 0.037330317 0.808558559 0 0.137254902

0 0.074660633 1 1 0.62745098

0 1 0.864864865 1 1

1 0.061085973 0.941441441 1 0.784313725

1 0.030542986 0 0 0.450980392

 Jarak Eulcidean data latih pertama:

𝑑(𝑥, 𝑦) =

√(0 − 0)²+ (0,0294 − 0,0294)²+ (0,7038 − 0,7038)²+ (0 − 0)²+ (0,1176 − 0,1176)²

Maka diperoleh jarak = 0 untuk data latih pertama dengan dirinya sendiri.

Selanjutnya data latih pertama dihitung dengan data latih kedua dan seterusnya. Jarak euclidean untuk setiap data latih fold pertama dapat dilihat pada tabel 3.11 berikut:

N o

Euclidean distance data train

fold 1 Label

PB/U

1 0.00000 1.00569

1.16175 1.65726 1.58174 1.26747

Sangat Pendek 2 1.00569 0.00000 1.50942 1.91683 1.19871 0.86732 Tinggi 3 1.16175 1.50942 0.00000 1.00663 1.01401 1.74158 Normal 4 1.65726 1.91683

1.00663 0.00000 1.39066 1.99731

Sangat Pendek Tabel 3.10 Data fold pertama

Tabel 3.11 Jarak euclidean data latih fold pertama

Dalam dokumen KLASIFIKASI STATUS GIZI BALITA MENGGUNAKAN METODE MODIFIED K-NEAREST NEIGHBORS (MKNN) SKRIPSI (Halaman 20-77)