Pada bab ini berisi kesimpulan yang terdiri dari rangkuman keseluruhan isi yang telah dibahas dan saran yang berisi saran penelitian untuk pengembangan penelitian.
6
BAB II
LANDASAN TEORI
2.1. Data Mining
Data Mining adalah serangkaian proses untuk menggali nlai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual (Pramudiono, 2006).
Data Mining adalah analisis otomatis dari data yang berjumlah besar atau kompleks dengan tujuan untuk menemukan pola atau kecenderungan yang penting yang biasanya tidak disadari keberadaanya (Pramudiono, 2006).
Data Mining merupakan analisis dari peninjauan kumpulan data untuk menemukan hubungan yang tidak diduga dan meringkas data dengan cara yang berbeda dengan sebelumnya, yang dapat dipahami dan bermanfaat bagi pemilik data (Larose, 2005).
Data Mining merupakan bidang dari beberapa bidang keilmuan yang menyatukan teknik dari pembelajaran mesin, pengenalan pola, statistic, database, dan visualisasi untuk penanganan permasalahan pengambilan informasi dari database yang besar (Larose, 2005).
Data Mining merupakan penggalian makna yang tersembunyi dari kumpulan data yang sangat besar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan basis Data.
2.2. Knowledge Discovery And Data Mining(KDD)
Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Dan salah satu tahapan dalam keseluruhan proses KDD adalah data mining.
Knowledge Discovery and Data Mining(KDD) adalah proses yang dibantu oleh komputer untuk menggali dan menganalisis sejumlah besar himpunan data dan mengekstrak informasi dan pengetahuan yang berguna.
Proses dalam KDD adalah proses yang digambarkan pada dan terdiri dari rangkaian proses iteratif sebagai berikut :
1. Data Cleaning, menghilangkan noise dan data yang inkonsisten.
2. Data Integration, menggabungkan data dari berbagai sumber data yang berbeda.
3. Data Selection, mengambil data yang relevan dengan tugas analisis dari database.
4. Data Transformation, Mentransformasi atau menggabungkan data ke dalam bentuk yang sesuai untuk penggalian lewat operasi summary atau aggregation.
5. Data Mining, proses esensial untuk mengekstrak pola dari data dengan metode cerdas.
6. Pattern Evaluation,mengidentifikasikan pola yang menarik dan merepresentasikan pengetahuan berdasarkan interestingness measures. 7. Knowledge Presentation, penyajian pengetahuan yang digali kepada
pengguna dengan menggunakan visualisasi dan teknik representasi pengetahuan.
2.3. Clasification
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan.
Classification adalah tindakan untuk memberikan kelompok pada setiap keadaan. Setiap keadaan berisi sekelompok atribut, salah satunya adalah class attribute. Metode ini dibutuhkan untuk menemukan sebuah model yang dapat menjelaskan class attribute itu sebagai fungsi dari input attribute.
2.4. K-Fold Cross-Validation
Metode K-Fold Cross-Validation membagi himpunan data D secara acak menjadi k subhimpunan(fold) yang saling bebas : f1,f2, ... , fk sehingga masing-masing fold berisi 1/k bagian data. Selanjutnya kita dapat membangun k himpunan data : D1,D2, ..., Dk yang masing-masing berisi (k-1) fold untuk data latih, satu fold untuk data uji. Misalnya, dengan k = 5, maka kita mendapatkan himpunan data D1 berisi empat fold : f2,f3,f4 dan f5 untuk data latih serta satu fold f1 untuk data uji. Himpunan data D2 berisi fold f1,f3,f4,f5
untuk data latih dan fold f2 untuk data uji. Demikian seterusnya untuk himpunan data D3,D4,D5 sehinga setiap fold pernah menjadi data uji sebanyak satu kali. Penjelasan diatas akan diilustrasikan pada gambar dibawah ini :
Gambar 2.2 Metode 5-fold cross-validation dengan himpunan data D yang dibagi ke dalam 5 fold yang saling bebas: f1,f2,f3,f4 dan f5 yang selanjutnya
didistribusikan secara sirkular untuk data latih dan data uji.
2.5. Metode Naive Bayes Clasification (NBC)
2.5.1. Pengenalan Metode Naive Bayes Clasification
Metode Naïve Bayes merupakan salah satu algoritma yang dapat digunakan untuk memprediksi keanggotaan dari suatu class berdasarkan teorema bayes yang mampu bekerja seperti decision tree dan neural network (2016, Fadhil). Naive bayes melakukan klasifikasi secara efektif dengan mengoptimalkan pengawasan perkiraan dalam probabilitas yang akurat, bahkan ketika asumsi dilanggar, performa classifier ini tetap lebih baik dibandingkan classifier yang lain (Ying-Yang, 2003). Persamaan teorema Naïve Bayes dapat dilihat dalam persamaan berikut : ) ( ) ( ) | ( ) | ( X P H P H X P X H P (2.1)
Dimana :
P(H|X) : Probabilitas hipotesis H berdasarkan kondisi X (Posteriori Probabilitas)
X : Data dengan Class yang belom diketahui
H : Hipotesis data merupakan suatu Class spesifik
P(H) : Probabilitas hipotesis H (Prior Probabilitas)
P(X) : Probabilitas X
P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H
Dalam bidang Machine Learning (Suyanto, 2018:60), X merupakan sebuah tuple atau objek data, H merupakan Hipotesis atau dugaan bahwa tuple X adalah kelas C. secara spesifik, dalam masalah klasifikasi, kita dapat menghitung P(H|X) sebagai probabilitas bahwa Hipotesis H benar untuk tuple X. Sementara itu P(H) adalah probabilitas Prior bahwa hipotesis H benar untuk setiap tuple tidak peduli nilai-nilai atributnya sedangkan P(X) adalah probabilitas Prior dari tuple X.
Untuk melakukan klasifikasi data atau melakukan estimasi P(H|X) untuk menentukan probabilitas bahwa tuple X berada dalam kelas C, kita dapat menggunakan metode Naïve Bayes Classifier atau Simple Bayesian Classifier melalui langkah-langkah berikut :
1. Misalkan D adalah himpunan data latih (Trainning set) yang berisi sejumlah tuple beserta label kelasnya. Setiap tuple adalah berdimensi n yang dinyatakan sebagai X = (x1, x2, … , xn) yang didapat dari n atribut A1,A2, … , An.
Misalkan terdapat m kelas, yaitu C1,C2, … , Cm. untuk sebuah tuple masukan X, Naïve Bayes Clasiffier memprediksi bahwa tuple X termasuk ke dalam kelas Ci jika dan hanya jika P(Ci|X) > P(Cj|X) untuk 1 ≤ j ≤ m,j ≠ i. Dengan kata lain, Naïve Bayes
Classifier bekerja dengan cara memaksimumkan P(Ci|X). Kelas Ci yang membuat P(Ci|X) bernilai maksimum disebut maximum posteriori hypothesis. Dengan teorema Bayes P(Ci|X) diestimasi menggunakan formula : ) ( ) ( ) | ( ) | ( X P C P C X P X C P i i i (2.2)
2. Mengingat P(X) bernilai sama untuk semua kelas (tuple X memiliki probabilitas yang sama dengan untuk masuk ke dalam kelas manapun), maka hanya P(X|Ci)P(Ci) yang tidak perlu dimaksimalkan. Jika probabilitas prior setiap kelas tidak diketahui, maka probabilitas setiap kelas biasanya diasumsikan sama, P(Ci) = P(C2) = … = P(Cm). dengan demikian, Naïve Bayes hanya memaksimalkan P(X|Ci). Jika probabilitas prior untuk setiap kelas berbeda-beda, maka Naïve Bayes harus memaksimalkan P(X|Ci)P(Ci).
Jika berhadapan dengan data yang memiliki atribut yang banyak, kita dapat mereduksi kompleksitas dari perhitungan P(X|Ci) dengan asumsi tentang independensi bersyarat kelas yaitu : nilai-nilai atribut saling independen yang artinya saling bebas dan tidak ada ketergantungan. Maka, Naïve Bayes Classifier memaksimalkan : ) | ( ... ) | ( ) | ( ) | ( ) | (Ci X nk1P xk Ci P xi Ci P x2 Ci P xn Ci P (2.3)
Berdasarkan tuple-tuple pada himpunan data latih, dapat mengestimasi P(xi|Ci), P(x2|Ci),…, P(xn|Ci) berdasarkan tipe dari masing-masing atribut.
Untuk atribut bernilai kategorial, P(xk|Ci) didefenisikan sebagai jumlah tuple dikelas Ci dalam himpunan D yang memiliki nilai xk pada atribut Ak dibagi dengan total tuple dikelas Ci dalam D yang disimbolkan |Ci,D|. sedangkan untuk
atribut data kontinu pada umumnya memiliki distribusi Gaussian, P(xk|Ci) yang didefenisikan sebagai :
2 2 2 ) ( 2 1 ) | ( ik ik k x ik i k C e x P (2.4)
Dimana µik dan σik adalah rata-rata dan standar devisiasi dari nilai-nilai pada atribut Ak dan Ci.
3. Untuk memprediksi label kelas dari tuple X, langkah yang harus dilakukan adalah menghitung probabilitas P(X|Ci)P(Ci) untuk setiap kelas Ci. Selanjutnya adalah memaksimalkan probabilatas tersebut untuk mencari kelas Ci yang menghasilkan probabilitas P(X|Ci)P(Ci), maksimum sebagai keputusan. secara matematis, tuple X yang diberi label kelas Ci dirumuskan sebagai berikut :
) ( ) | ( ) ( ) | (X Ci P Ci P X Cj PCj P untuk 1 ≤ j ≤ m,j ≠ I (2.5)
2.5.2. Alur Metode Naive Bayes
Dalam implementasi metode Naïve Bayes, terdapat alur dari metode Naïve Bayes yaitu :
1. Baca data training.
2. Hitung probabilitas prior masing-masing kelas dan probabilitas setiap nilai atribut dan jika data yang diperoleh berupa data kontinu, Maka :
Hitung probabilitas prior masing-masing kelas.
Hitung rata-rata dan standar devisiasi semua atribut yang merupakan data kontinu.
Adapun persamaan yang digunakan untuk menghitung nilai rata-rata (mean) adalah sebagai berikut:
n xi n i
1 (2.6) Atau :n x x x x n 1 2 3 ... (2.7) Dimana :
µ = rata-rata hitung ( mean) xi = nilai sampel ke –i n = jumlah sampel
Dan persamaan untuk menghitung nilai simpangan baku (standar deviasi) adalah sebagai berikut:
1 ) ( 1 2
n x n i i (2.8) Dimana : σ = Standar deviasi xi = nilai sampel x ke –i µ = nilai rata-rata hitung n = jumlah sampel Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut.
3. Mendapatkan nilai dalam table mean, standar deviasi dan probabilitas
4. Melakukan pengujian data testing. 5. Solusi kemudian dihasilkan.
2.6. Confusion Matrix
Confusion matrix atau yang disebut juga dengan kualifikasi adalah suatu alat visual yang biasanya digunakan dalam supervised learning. Matriks klasifikasi berisi jumlah kasus-kasus yang diklasifikasikan dengan benar dan kasus-kasus yang salah diklasifikasikan. Pada kasus-kasus yang benar diklasifikasikan akan muncul pada diagonal, karena kelompok prediksi dan kelompok actual adalah sama. Elemen-elemen selain diagonal menunjukkan
kasus yang salah diklasifikasikan. Jumlah elemen diagonal dibagi total jumlah kasus adalah rasio tingkat akurasi dari klasifikasi. Format dari confusion matrix dapat dilihat sebagai berikut :
Tabel 2.1 Confusion Matrix
Evaluasi kesamaan dokumen dapat diukur dengan mengunakan recall, precision, dan F-meansure. Hasil pengklasifikasian (predicted class) mempunyai kemungkinan yaitu benar di dalam kelasnya (TP dan TN) atau salah, sehingga masuk ke dalam kelas lainnya (FP dan FN).
Hasil pengukuran (performace metric) dapat diperoleh dengan cara melihat pada format confusion matrix. Akurasi dari pengklasifikasian diperoleh dari rumus:
FN FP TN TP TN TP Akurasi (2.9) Keterangan :
True Positive (TP): Jumlah data positif yang terklasifikasikan dengan benar oleh sistem.
True Negative (TN): Jumlah data negative yang terklasifikasikan dengan benar oleh sistem.
False Negtive (FN): Jumlah data negative namun terklasifikasikan salah oleh sistem.
False Positive (FP): Jumlah data positif namun terklasifikasi salah oleh sistem.
KELAS POSITIVE NEGATIVE
POSITIVE True Positive (TP) False Negative (FN) NEGATIVE False Positive (FP) True Negative (TN)
2.7. Penilaian Status Gizi
Menurut Budi Sutomo dan Dwi Yanti Anggraini (2010) menjelaskan bahwa status gizi adalah suatu kesehatan tubuh berkat asupan zat gizi melalui makanan dan minuman yang dihubungkan dengan kebutuhan. Status gizi biasanya baik dan cukup, namun karena pola konsumsi yang tidak seimbang maka timbul status gizi buruk dan status gizi lebih.
Sedangkan menurut Irianton Aritonang & Endah Priharsiwi (2006) status gizi merupakan cerminan kuantitas (jumlahnya) dan kualitas (ragamnya) pasokan zat gizi makanan yang dikonsumsi dan kemampuan tubuh untuk memanfaatkannya secara optimal. Status gizi seseorang pada dasarnya merupakan gambaran kesehatan sebagai refleksi dari konsumsi pangan dan penggunaannya oleh tubuh.
Berdasarkan Keputusan Menteri Kesehatan Republik Indonesia Nomor: 1995/MENKES/SK/XII/2010 tentang standar antropometri penilaian status gizi anak, menimbang bahwa untuk menilai status gizi anak diperlukan standar antropometri yang mengacu pada Standar World Health Organization (WHO 2005). Ada beberapa macam indikator dalam dalam penilaian status gizi anak balita yaitu : berat badan menurut umur (BB/U), tinggi badan menurut umur (TB/U), dan berat badan menurut tinggi badan (BB/TB).
1. Indeks Berat Badan menurut Umur (BB/U)
Indeks BB/U merefleksikan berat badan dengan umur. Indeks BB/U menggambarkan status gizi anak pada masa sekarang. Indeks ini dapat mendeteksi apakah seorang anak beratnya kurang atau sangat kurang, tetapi tidak dapat digunakan untuk mengklasifikasikan apakah seorang anak mengalami kelebihan berat badan atau sangat gemuk. Status gizi balita berdasarkan indikator BB/U yaitu : gizi buruk, gizi kurang, gizi baik, dan gizi lebih.
2. Indeks Tinggi Badan menurut Umur (TB/U)
Indeks TB/U merefleksikan tinggi badan dengan umur. Indeks TB/U menggambarkan status gizi anak pada masa lampau. Pada keadaan normal maka tinggi badan akan tumbuh bersamaan dengan
pertambahan umur. Pertumbuhan tinggi badan tidak seperti berat badan, dimana tinggi badan relatif kurang sensitif terhadap defisiensi gizi dalam jangka pendek. Status gizi berdasarkan indikator TB/U yaitu : sangat pendek, pendek, normal, dan tinggi.
3. Indeks Berat Badan menurut Tinggi Badan (BB/TB)
Pada keadaan normal, perkembangan berat badan searah dengan pertambahan tinggi badan dengan kecepatan tertentu. Indeks BB/TB menggambarkan status gizi masa depan, baik digunakan apabila data umur tidak diketahui. Indeks berat badan terhadap tinggi badan banyak digunakan karena tidak memerlukan data umur dan dapat membedakan proporsi badan (sangat kurus, kurus, normal, dan gemuk).
Berikut adalah tabel kategori status gizi berdasarkan Standar World Health Organization (WHO 2010) :
Tabel 2.2 Kategori dan Ambang Batas Status Gizi Anak Berdasarkan Indeks.
Indeks Kategori Status Gizi Ambang Batas (Z-Score) Berat badan menurut
umur (BB/U)
Anak umur 0-60 bulan
Gizi Kurang <-3 SD
Gizi Baik -3 SD sampai dengan<-2 SD
Gizi Baik -2 SD sampai dengan 2 SD
Gizi Lebih >2 SD Tinggi badan menurut
umur (PB/U) atau Tinggi badan menurut umur (TB/U)
Sangat Pendek <-3 SD
Pendek -3 SD sampai dengan<-2 SD
Normal -2 SD sampai dengan 2 SD
Anak umur 0-60 bulan Tinggi >2 SD Berat badan menurut
panjang badan (BB/PB) atau
Berat badan menurut tinggi badan (BB/TB)
Anak umur 0-60 bulan
Sangat Kurus <-3 SD
Kurus -3 SD sampai dengan <-2 SD
Normal -2 SD sampai dengan 2
SD
Gemuk >2 SD
Untuk menilai status gizi anak, maka angka berat badan dan tinggi badan setiap balita dikonversikan ke dalam bentuk nilai terstandar (Z-Score) dengan menggunakan aturan baku antropometri WHO 2005. Nilai Z-Score diperoleh dari rumus berikut ini :
NSBR NMBR NIS Score Z (2.10) Keterangan :
NIS = Nilai Individual Subjek NMBR = Nilai Median Baku Rujukan NSBR = Nilai Simpang Baku Rujukan
Nilai simpang baku rujukan disini maksudnya adalah selisih kasus dengan standar +1 SD atau -1 SD. Jadi apabila BB/TB pada kasus lebih besar dari pada median, maka nilai simpang baku rujukannya diperoleh dengan mengurangi +1 SD dengan median. Tetapi jika BB/TB kasus lebih kecil daripada median, maka nilai simpang baku rujukannya menjadi median dikurangi dengan -1 SD. Setelah diperoleh nilai Z-Score maka dapat ditentukan status gizi balita berdasarkan indikator BB/U, TB/U, dan BB/TB.
Contoh : Seorang anak laki-laki berumur 26 bulan dengan tinggi badan 90 cm dan berat badan 15 kg. Apakah status gizi berdasarkan indeks BB/U, TB/U, dan BB/TB untuk anak tersebut ?
Tabel 2.3 Perhitungan Z-Score Indeks BB/U
Balita dengan umur 26 bulan mempunyai nilai median 12,5 sehingga berat badan balita (15 kg) lebih besar dari nilai median (12,5). Maka dari itu nilai simpang baku rujukannya diperoleh dengan mengurangi nilai simpang baku +1SD dengan nilai median, yakni 14,1-12,5 = 1,6.
Sehingga: 56 , 1 6 , 1 5 , 12 15 Score Z
Karena nilai Z-Scorenya 1,56 maka status gizi berdasarkan indeks BB/U adalah gizi baik karena nilai Z-Scorenya berada dalam rentang -2.00 sampai +2.00.
Tabel 2.4 Perhitungan Z-score Indeks TB/U
Balita dengan umur 26 bulan mempunyai nilai median 88,8 sehingga tinggi badan balita (90 cm) lebih besar dari nilai median (88,8). Maka dari itu nilai simpang baku rujukannya diperoleh dengan mengurangi nilai simpang baku +1SD dengan nilai median, yakni 92,0-88,8 = 3,2.
Umur(Bulan) Berat Badan (kg)
-3 SD -2 SD -1 SD Median +1 SD +2 SD +3 SD 26 8,9 10,0 11,2 12,5 14,1 15,8 17,8
Umur(Bulan) Tinggi Badan (cm)
-3 SD -2 SD -1 SD Median +1 SD +2 SD +3 SD 26 79,3 82,5 85,6 88,8 92,0 95,2 98,3
Sehingga: 375 , 0 2 , 3 8 , 88 90 Score Z
Karena nilai Z-Score-nya 0,375 maka status gizi berdasarkan indeks TB/U adalah normal karena nilai Z-Scorenya berada dalam rentang -2.00 sampai +2.00.
Tabel 2. 5 Perhitungan Z-Score Indeks BB/TB
Balita dengan tinggi badan 90 cm mempunyai berat badan dengan nilai median 12,9 sehingga berat badan balita (15 kg) lebih besar dari nilai median (12,9). Maka dari itu nilai simpang baku rujukannya diperoleh dengan mengurangi nilai simpang baku +1SD dengan nilai median, yakni 14,0–12,9 = 1,1. Sehingga: 9 , 1 1 , 1 9 , 12 15 Score Z
Karena nilai Z-Scorenya 1,9 maka status gizi berdasarkan indeks BB/TB adalah normal karena nilai Z-Scorenya berada dalam rentang -2.00 sampai +2.00. Tinggi Badan (cm) Berat Badan (kg) -3 SD -2 SD -1 SD Median +1 SD +2 SD +3 SD 90 10,2 11,0 11,9 12,9 14,0 15,2 16,6
20
BAB III
METODOLOGI PENELITIAN
3.1. Bahan Riset
Bahan riset yang digunakan dalam penelitian ini merupakan data status gizi balita yang diambil dari Puskesmas Boawae, Kecamatan Boawae, Kabupaten Nagekeo, Flores, Provinsi Nusa Tenggara Timur. Data tersebut berbentuk sebuah file bertipe .xls. Dari proses pengumpulan data, diperoleh jumlah data sebanyak 1200 data status gizi balita yang terdiri dari 18 atribut yaitu no, nama, jenis kelamin, tanggal lahir, tanggal pengukuran, nama orang tua, provinsi, kabupaten/kota, kecamatan, puskesmas, desa/keluarahan, posyandu, umur, berat badan, tinggi badan, status gizi berat badan menurut umur (BB/U), status gizi tinggi badan menurut umur (TB/U) dan status gizi berat badan menurut tinggi badan (BB/TB). Data tersebut sudah dikelompokan atau dilabelkan berdasarkan status gizi BB/U (Gizi Lebih, Gizi Baik, Gizi Kurang, Gizi Buruk), TB/U(Sangat Pendek, Pendek, Normal, Tinggi) dan BB/TB (Gemuk, Kurus, Normal, Obesitas).
Untuk menetukan status gizi balita, terdapat 4 parameter atau atribut yang digunakan sebagai inputan dalam perhitungan metode Naïve Bayes Classifier. Parameter atau atribut tersebut adalah jenis kelamin, umur, tinggi badan dan berat badan balita.
3.2. Tahap Pengumpulan Data
Dalam penelitian ini, penulis memperoleh data dari Puskesmas Boawae, kecamatan Boawae, Kabupaten Nagekeo, Flores, Provinsi Nusa Tenggara Timur. Data yang diambil penulis adalah data status gizi balita dari berbagai Desa/Kelurahan yang dibagi ke dalam beberapa kelompok posyandu. Teknik yang digunakan dalam penelitian ini adalah :
3.2.1. Survey Awal
Pada tahap ini dilakukan pengumpulan data yang akan digunakan dalam “Klasifikasi Status Gizi Balita Menggunakan Metode Naive Bayes” di Puskesmas Boawae, Kecamatan Boawae, Kabupaten Nagekeo, Nusa Tenggara Timur. Tahap awal yang dilakukan adalah penulis menghubungi Kepala Puskesmas Boawae untuk meminta ijin pengambilan data status gizi balita dan melakukan survey dengan pihak dibidang gizi mengenai penentuan status gizi balita yang dilakukan untuk mendapatkan data status gizi balita yang telah dilakukan oleh pihak gizi di Puskesmas Boawae. Adapun kriteria-kriteria dalam penentuan status gizi balita yaitu jenis jelamin, umur, tinggi badan dan berat badan balita.
3.2.2. Sumber Data
Data-data yang diperlukan penulis dalam “Klasifikasi Status Gizi Balita Menggunakan Metode Naive Bayes” adalah data status gizi balita di Puskesmas Boawae yang meliputi nama, jenis kelamin, umur, tinggi badan dan berat badan balita beserta status gizi balita yang telah ditentukan oleh pihak Puskesmas Boawae berdasarkan TB/U, BB/U dan TB/BB.
3.3. Studi Literatur
Pada tahap ini, Penulis mempelajari teori-teori dan referensi-referensi yang berkaitan dengan”Klasifikasi Status Gizi Balita Menggunakan Metode Naive Bayes Classification” dan Naïve Bayes Classifier sebagai studi literatur yang diperoleh dari artikel, paper, jurnal, buku dan referensi skripsi yang berhubungan dengan permasalahan yang dibahas.
3.4. Pengelompokan Data
Setelah proses pengumpulan data, akan dilakukan pembuatan data training dan pengelompokan kelas (Gizi Buruk, Gizi Kurang, Gizi Baik dan Gizi Lebih) pada penentuan status gizi balita berdasarkan berat badan menurut umur (BB/U), kelas (Sangat Pendek, Pendek, Normal dan Tinggi) pada penentuan status gizi balita berdasarkan tinggi badan menurut umur (TB/U) dan Kelas (Gemuk, Kurus dan Normal, Obesitas) pada penentuan status gizi balita berdasarkan berat badan menurut tinggi badan (BB/TB) yang terdiri dari beberapa variabel berikut :
1. Data Diskret Nama
Jenis kelamin Status Gizi BB/U Status Gizi TB/U Status Gizi BB/TB 2. Data Continue
Umur (bulan) Tinggi badan (cm) Berat badan (kg)
3.5. Pembuatan Alat Uji
Masukkan sistem akan diproses menggunakan proses perhitungan metode Naive Bayes dalam teori data mining (penambangan data). Alur sistem dan tahapan dalam penelitian ini akan dijabarkan dalam bentuk diagram blok pengolahan data seperti pada gambar 3.1 berikut ini :
Gambar 3.1 Diagram Blok Proses Klasifikasi Status Gizi Balita Menggunakan Metode Naïve Bayes Classification.
Pada gambar 3.1 menjelaskan tahapan dan alur sistem dalam penelitian ini adalah sebagai berikut :
1. Sistem membaca data mentah yang telah di-upload.
2. Data yang telah diupload akan melalui proses cleaning data/pembersihan data untuk menghasilkan data siap pakai atau data set.
3. Sistem menyimpan data set ke dalam database.
4. Sistem melakukan pembagian data testing dan data training menggunakan 4-Fold-Cross Validation.
5. Sistem melakukan perhitungan mean dan standar deviasi, menghitung probabilitas, menghitung probabilitas pada masing-masing kelas mengggunakan rumus dentitas gaus.
6. Sistem menghitung likelihood .
7. Sistem melakukan normalisasi nilai probabilitas (nilai maksimal) berdasarkan perhitungan likelihood.
8. Sistem membandingkan label data testing dengan hasil klasifikasi yang digunakan untuk mendapatkan hasil akurasi dengan menggunakan confusion matriks.
3.6. Gambaran Umum Sistem 3.6.1. Input Sistem
Data yang akan dimasukan ke dalam sistem adalah data berupa file spreadsheed dengan extensi .xls yang diambil dari directory computer atau penyimpanan lainnya yang kemudian akan diimport ke dalam sistem dan disimpan dalam database sistem.
3.6.2. Proses Sistem
Dalam sistem ini terdapat beberapa tahapan untuk melakukan klasifikasi data, menghitung akurasi, dan melakukan pengujian data tunggal yang diinputkan ke dalam sistem. Tahapan-tahapan tersebut adalah sebagai berikut :
1. Mengimport data status gizi balita ke dalam database, data yang diimport adalah data bertipe .xls.
2. Sistem melakukan cleaning data/pembersihan data.
3. Sistem menampilkan data hasil cleaning/pembersihan data yang diimport ke dalam database sistem.
4. Sistem melakukan pembagian data 4-Fold-Cross Validation. 5. Sistem menampilkan hasil pembagian data 4-Fold-Cross
Validation.
6. Sistem melakukan proses perhitungan pengujian akurasi klasifikasi Naive Bayes.
7. Sistem melakukan perhitungan klasifikasi Naive Bayes yang terdiri dari beberapa proses, yaitu menghitung mean dan standar deviasi, menghitung probabilitas, menghitung probabilitas masing-masing kelas menggunakan rumus dentitas gaus, menghitung likelihood dan melakukan normalisasi nilai probabilitas (nilai maksimal).
8. Sistem menampilkan hasil perhitungan akurasi klasifikasi Naïve Bayes.
9. Admin/User melakukan pengujian data tunggal untuk menentukan status gizi balita.
10. Sistem menampilkan hasil pengujian data tunggal.
Proses sistem diatas dapat digambarkan dalam diagram Flowchart dibawah ini :