Pengolahan Data Awal - METODOLOGI PENELITIAN

METODOLOGI PENELITIAN

3.2.2 Pengolahan Data Awal

Pada tahap ini menjelaskan tentang tahap awal data mining. Data yang telah didapatkan akan diolah keformat yang dibutuhkan, pengelompokkan dan penentuan atribut data. Dalam melakukan pengolahan data awal, akan dilakukan

MON TUE WED THU FRI SAT MON TUE WED THU FRI SAT

#REF! #REF! #REF! #REF! #REF! #REF! #REF! #REF! #REF! #REF! #REF! #REF! 1 SOLID MDS SUPER PRO SOLID BLACK M 2 1 0 0 0 12 6 0 2 SOLID MDS SUPER PRO SOLID BLACK L 58 57 0 0 0 348 342 0 3 SOLID MDS SUPER PRO SOLID BLACK XL 11 11 0 0 0 66 66 0 4 SOLID MDS SUPER PRO SOLID GRAPHITE M 0 0 0 0 0 0 5 SOLID MDS SUPER PRO SOLID GRAPHITE L 1 1 0 0 0 6 6 0 6 SOLID MDS SUPER PRO SOLID GRAPHITE XL 0 0 0 0 0 0 7 SOLID MDS SUPER PRO SOLID RED FLUO M 0 0 0 0 0 0 8 SOLID MDS SUPER PRO SOLID RED FLUO L 0 0 0 0 0 0 9 SOLID MDS SUPER PRO SOLID RED FLUO XL 0 0 0 0 0 0 10 SOLID MDS SUPER PRO SOLID YELLOW FLUO M 16 15 0 0 0 96 90 0 11 SOLID MDS SUPER PRO SOLID YELLOW FLUO L 6 5 0 0 0 36 30 0 12 SOLID MDS SUPER PRO SOLID YELLOW FLUO XL 3 3 0 0 0 18 18 0 13 SOLID MDS SUPER PRO SOLID WHITE M 6 5 0 0 0 36 30 0 14 SOLID MDS SUPER PRO SOLID WHITE L 20 19 0 0 0 120 114 0 15 SOLID MDS SUPER PRO SOLID WHITE XL 41 41 0 0 0 246 246 0 16 STICKER MDS SUPER PRO #1 WHITE BLACK RED M 27 27 0 0 0 162 162 0 17 STICKER MDS SUPER PRO #1 WHITE BLACK RED L 27 27 0 0 0 162 162 0 18 STICKER MDS SUPER PRO #1 WHITE BLACK RED XL 1 1 0 0 0 6 6 0 19 STICKER MDS SUPER PRO #1 WHITE BLACK RED XXL 0 0

20 STICKER MDS SUPER PRO #1 WHITE BLACK RED FLUO M 15 15 0 0 0 90 90 0 21 STICKER MDS SUPER PRO #1 WHITE BLACK RED FLUO L 26 26 0 0 0 156 156 0 22 STICKER MDS SUPER PRO #1 WHITE BLACK RED FLUO XL 0 0 0 0 0 0 23 STICKER MDS SUPER PRO #1 WHITE BLACK BLUE M 1 1 0 0 0 6 6 0 24 STICKER MDS SUPER PRO #1 WHITE BLACK BLUE L 67 67 0 0 0 402 402 0 25 STICKER MDS SUPER PRO #1 WHITE BLACK BLUE XL 0 0 0 0 0 0 26 STICKER MDS SUPER PRO #1 WHITE BLACK YELLOW M 9 9 0 0 0 54 54 0 27 STICKER MDS SUPER PRO #1 WHITE BLACK YELLOW L 38 38 0 0 0 228 228 0 28 STICKER MDS SUPER PRO #1 WHITE BLACK YELLOW XL 4 4 0 0 0 24 24 0 29 STICKER MDS SUPER PRO #1 WHITE BLACK GUNMETAL M 0 0 0 0 0 0 30 STICKER MDS SUPER PRO #1 WHITE BLACK GUNMETAL L 46 46 0 0 0 276 276 0 31 STICKER MDS SUPER PRO #1 WHITE BLACK GUNMETAL XL 0 0 0 0 0 0 32 STICKER MDS SUPER PRO #2 ALL GREY MATT RED BLACK M 0 0 0 0 0 0 33 STICKER MDS SUPER PRO #2 ALL GREY MATT RED BLACK L 0 0 0 0 0 0 34 STICKER MDS SUPER PRO #2 ALL GREY MATT RED BLACK XL 0 0 0 0 0 0 35 STICKER MDS SUPER PRO #2 YELL FLUO RED BLACK M 0 0 0 0 0 0 36 STICKER MDS SUPER PRO #2 YELL FLUO RED BLACK L 4 4 0 0 0 24 24 0 37 STICKER MDS SUPER PRO #2 YELL FLUO RED BLACK XL 5 5 0 0 0 30 30 0 38 . TOTAL MDS SUPER PRO 0 0 0 434 428 0 0 0 0 2604 2568 0 39 SOLID KYT ROMEO SOLID BLACK M 55 35 0 0 0 330 210 0 40 SOLID KYT ROMEO SOLID BLACK L 0 0 0 0 0 0

GRAND TOTAL

PCS MB

COLOR TYPE MODEL NAME

beberapa tahapan agar didapatkan data yang bisa digunakan untuk tahap selanjutnya. Beberapa tahapan tersebut yaitu : select data, pre-processing, serta akan dilakukan split validation.

1. Select Data

Pada tahap ini akan dilakukan pemilihan variabel data yang akan dianalisis, karena sering ditemukan bawha tidak semua data yang dibutuhkan dengan mempertimbangkan tujuan penulisan, sehingga diperoleh beberapa variabel yang akan digunakan untuk menjadi masukan variabel input.

Dari 135 data record akan diambil 5 variable, yaitu : total, helmet, model, colour, type. Data hasil seleksi akan digunakan dalam proses data mining. 2. Pre-processing

Pada proses pre-processing akan dilaukan pembersihan data untuk membuang data yang missing value yaitu data yang tidak konsisten dan juga memperbaiki data yang rusak. Proses pemberihan data dilakukan secara manual untuk memastikan bahwa data yang telah dipilih layak untuk dilakuka proses permodelan.

3. Split Validation

Split Validation marupakan teknik validasi yang membagi data menjadi

dua bagi secara acak, sebagian data training dan sebagian data testing. Data yang sudah disipakan untuk klasifikasi dibagi menjadi dua untuk data

training dan data testing menggunakan sampling random sistematik

sistematik ini perandoman atau pengundian hanya dilakukan satu kali, yakni ketika menentukan unsur pertama dari sampling yang akan diambil. Penentuan unsur sampling selanjutnya ditempuh dengan cara memanfaatkan interval sampel. Interval sampel atau juga disebut sampling rasio diperoleh dengan cara membagi ukuran populasi dengan ukuran sampel yang dikehendaki (N/n). Hasil perhitungan untuk mengambil data testing adalah sebagai berikut:

Jumlah Data (N) = 135

Jumlah Data Testing = 20% x 135 = 27 Jumlah Sampel (n) = 27

Interval sampling = N/n = 135/27 = 5

Unsur pertama yang diambil untuk data testing (s) = 1 Unsur Kedua = s + k

Unsur Ketiga = s + 2k

Unsur Keempat = s+3k, dan sterusnya hingga unsur ke-n

Pembagian data menjadi data training dan data testing pada penelitian ini menggunakan split ratio 80% untuk data training dan 20% untuk data testing. Dari hasil diatas diperoleh data testing sebanyak 27 data, maka sisanya dijadikan data training 108 data.

Tabel 3.2.2 Data Testing

3.2.3 Pemodelan

Pada penelitian ini akan dilakukan pemodelan menggunakan metode Algoritma C4.5 untuk pengolahan data barang. Berikut ini tahapan proses permodelan dalam penelitian ini. Metode Algoritma C4.5 dipilih karena salah satu kelebihannya adalah dapat menangani data numerik dan diskret. Algoritma C4.5 menggunakan rasio perolehan (gain rasio). Sebelum menghitung rasio perolehan, perlu dilakukan perhitungan nilai informasi dalam satuan bits dari suatu kumpulan objek, yaitu dengan menggunakan konsep entropy untuk membentuk pohon

keputusan. Data kemudian dihitung menggunakan algoritma sesuai dengan metodenya kemudian dicari hasil akurasinya.

Ada beberapa tahap dalam membentuk pohon keputusan dengan algoritma C4.5 antara lain :

1. Menyiapkan data training, dimana data tersebut akan diklasifikasikan. 2. Menentukan akar dari pohon, akar akan diperoleh dari atribut yang terpilih

dengan cara menghitung nilai gain dari masing-masing atribut. Nilai gain tertinggi akan dijadikan akar pertama dalam pohon kepurusan. Sebelum menghitung nilai gain, hitung dulu nilai entropy dengan persamaan sebagai berikut :

3. Kemudian hitung nilai gain dengan persamaan sebagai berikut :

4. Untuk langkah 2 hinggga semua record terpartisi. 5. Proses partisi akan berhenti saat :

 Semua record pada simpul N mendapat kelas yang sama.

 Tidak ada atribut didalam record yang akan dipartisi lagi.

 Tidak ada record di dalam cabang yang kosong.

Dalam dokumen IMPLEMENTASI DATA MINING UNTUK MEMPREDIKSI PEMASARAN PRODUK HELMET DENGAN ALGORITMA C4.5 PADA PT. INDOSAFETY MANUFACTURE (Halaman 49-53)