3.2 Tahapan Penelitian
3.2.2 Pengolahan Data Awal
Sumber : (UCI Machine Learning Repository, 2014)
3.2.2 Pengolahan Data Awal
Pada tahap ini menjelaskan tentang tahap awal data mining. Dalam pengolahan data awal, data yang telah didapatkan akan diolah kedalam bentuk yang diinginkan, lalu dikelompokkan dan ditentukan atribut datanya. Tahapan pada
pengolahan data awal yang akan dilakukan diantaranya, yaitu : select data, preprocessing data, data transformation, dan split data.
1. Select Data
Pada tahap ini dilakukan pemilihan variabel data yang akan dianalisis, dari total 583 data dengan 10 Variabel dan 1 Class. Semua variabel akan dipakai dalam proses data mining, variabel yang dipakai diantaranya :
Tabel 3.2 Atribut yang digunakan
No. Atribut Type Keterangan
1 Age Text Umur
2 Gender Text Jenis Kelamin
3 TB Text Total Bilirubin
4 DB Text Direct Bilirubin
5 Alkphos Text Alkaline Phosphotase
6 SGPT Text Serum Glutamic Pyruvate Transaminase 7 SGOT Text Serum Glutamic Oxaloacetic Transaminase
8 TP Text Total Proteins
9 ALB Text Albumin
10 A/G Text Ratio Albumin and Globulin Rasio 11 Selector Text Pasein atau Non Pasein
Sumber : (Penulis, 2018)
2. Preprocessing Data
Pada data ILPD (Indian Liver Patient Dataset) yang berasal dari UCI dataset repository mempunyai 583 data yang terdiri dari 10 atribut dan 1 class. Atribut class sendiri mempunyai 2 nilai yaitu pasein dan non pasein yang direpresentasikan dengan angka 1 sebagai pasein dan angka 2 sebagai non pasein. Namun dalam dataset tersebut juga masih terkandung beberapa data dengan nilai yang inkonsisten dan missing value, sehingga perlu dilakukannya tahap data preprocessing. Data preprocessing digunakan untuk membersihkan data dari nilai yang inkonsisten dan missing value tersebut.
berikut tahapan yang dilakukan pada data preprocessing, yaitu : A. Replace Missing Values
Dalam dataset yang digunakan dalam penelitian ini, masih terdapat beberapa data yang mengandung missing values, seperti yang ada pada tabel 3.3. untuk mengatasi hal tersebut dapat menggunakan tools replace missing values yang ada pada aplikasi rapidminer, dan menggunakan teknik subtitusi, yaitu menggantikan nilai yang hilang dengan mengubahnya menjadi nilai yang diinginkan yaitu nilai rata-rata pada atribut. Berikut tabel yang menunjukkan atribut yang terdapat missing values pada dataset :
Tabel 3.3 Atribut Missing Values
No. Atribut Jumlah Missing
Values
1 Age 0
2 Gender 0
3 TB : Total Bilirubin 0
4 DB : Direct Bilirubin 0
5 Alkphos : Alkaline Phosphotase 0
6 SGPT : Serum Glutamic Pyruvate Transaminase 0 7 SGOT : Serum Glutamic Oxaloacetic Transaminase 0
8 TP : Total Proteins 0
9 ALB : Albumin 0
10 Ratio Albumin and Globulin Rasio 4
11 Selector (pasein atau non pasein) 0
Sumber : (Penulis, 2018) 3. Data Transformation
Pada tahap ini, data akan diubah kedalam format yang dibutuhkan untuk mempermudah dalam proses mining. Data yang digunakan akan dirubah type datanya dari numerik menjadi text dengan cara mengelompokkan nilai dari setiap atribut menggunakan format Normal dan Tidak Normal berdasarkan nilai normal dari masing – masing atribut. Dapat dilihat pada tabel 3.4 dibawah ini.
Tabel 3.4 Data Transformation
No. Atribut Nilai Normal Pengelompokkan Data 1 Age - <=32, 33 .... 61,& =>62
2 Gender - Male dan Female
3 TB 0,2 - 0,9 Normal dan Tidak Normal 4 DB 0,1 - 0,4 Normal dan Tidak Normal 5 Alkphos 45 - 115 Normal dan Tidak Normal 6 SGPT 7 - 55 Normal dan Tidak Normal 7 SGOT 8 - 48 Normal dan Tidak Normal
8 TP 6 - 8 Normal dan Tidak Normal
9 ALB 3 - 5 Normal dan Tidak Normal
10 A/G 1,5 - 3 Normal dan Tidak Normal
11 Selector - Pasein Atau Non Pasein
Sumber : (Penulis, 2018) 4. Split Data
Split Data digunakan untuk membagi dataset menjadi dua, yaitu untuk data training dan data testing. Pembagian data menggunakan tools split data yang ada pada aplikasi Rapid Miner seperti pada gambar 3.1, kemudian didapat hasil yaitu 466 data testing, dan 117 data training seperti pada tabel 3.5 dan tabel 3.6.
Gambar 3.1 Proses Split Data Sumber : (RapidMiner, 2018)
Tabel 3.4 Data Testing
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Normal Pasein 33 ..61 Female Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 ..61 Male Normal Normal Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein
<= 32 Female Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein
=> 62 Female Tidak
Normal Pasein 33 ..61 Female Tidak
Normal Pasein
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Normal Pasein 33 ..61 Female Normal Normal Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Female Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein 33 ..61 Female Normal Normal Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 ..61 Male Tidak
Normal Pasein .... .... .... .... .... .... ... .... ... ... ....
Sumber : (Penulis, 2018) Tabel 3.5 Data Training
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein
<= 32 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein
Age Gender TB DB Alkphos SGPT SGOT TP ALB A/G Selector
Normal Pasein
=> 62 Male Normal Normal Tidak
Normal Pasein 33 .. 61 Female Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein 33 .. 61 Female Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Pasein
<= 32 Male Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein 33 .. 61 Female Normal Normal Tidak
Normal Normal Normal Normal Tidak Normal
Tidak
Normal Pasein 33 .. 61 Male Tidak
Normal Pasein
=> 62 Male Tidak
Normal Normal Tidak
Normal Normal Tidak
Normal Normal Normal Tidak
Normal Pasein
<= 32 Male Normal Normal Tidak
Normal Pasein
=> 62 Male Normal Normal Tidak
Normal Normal Tidak
Normal Normal Normal Tidak
Normal Pasein
=> 62 Female Normal Normal Tidak
Normal Pasein
<= 32 Female Tidak
Normal Pasein .... .... .... .... .... .... .... .... .... .... ....
Sumber : (Penulis, 2018)