47
Penelitian menggunakan model CRISP-DM (Cross Industry Standart Process ForData Mining ) dengan langkah berikut ini :
A. Fase Pemahaman Bisnis (Bussines Undestanding)
Penelitian ini memiliki tujuan bisnis untuk menentukan aturan prediksi pemusnahan barang scrap di PT Inabata Creation Indonesia supaya memberikan manfaat bagi perusahaan khususnya pada bidang teknologi dan bisnis.
B. Fase Pemahaman Data ( Data Understanding Phase )
Penelitian ini mengumpulkan data dengan metode observasi dan melihat rekapan laporan pemusnahan barang PT Inabata Creation Indonesia.
Laporan pemusnahan barang terdiri dari atribut Kode barang, nama barang, masa simpan, tgl kedatangan, Qty, Suhu, NG proses. Data tersebut akan melalui proses training untuk pembentukan tree dan menguji hasil tree.
Tabel 3.1 Data Pemusnahan Barang Januari s/d Maret 2018
Seluruh data ini berjumlah 200 record. Dari sumber data tersebut maka dapat menganalisis dan memprediksi data pemusnahan barang dengan algoritma C4.5.
47 C. Pengolahaan Data (Data Preparation)
Pada tahap ini menjelaskan tahap awal data mining. Data yang telah didapatkan akan diolah keformat yang dibutuhkan, pengelompokan data dan penentuan atribut data. Dalam melakukan pengolahan data awal, akan dilakukan beberapa tahapan agar didapatkan data yang bisa digunakan untuk tahap selanjutnya. Beberapa tahapan tersebut yaitu : Select data, Pre-processing serta akan dilakukan split validation.
a) Select Data
Data yang ada akan dipilih untuk menjadi atribut /variabel yang nantinya akan digunakan menjadi masukan atau variabel input.
Dari data 200 recorddengan 9 atribut hanya diambil 6 atribut saja, yaitu nama material/barang, masa simpan, suhu, warna, NG proses dan hasil. Data hasil seleksi akan digunakan dalam proses data mining. Pemilihan data seleksi dijelaskan pada tabel dibawah ini :
Tabel 3.2 Pemilihan Data
47
Kode X -
Nama Barang √ ID
Masa Simpan √ Nilai Model
Tgl Kedatangan X -
Qty X -
Unit X -
Suhu √ Nilai Model
Warna √ Nilai Model
NG Proses
(WIP) √ Nilai Model
Hasil √ Label Target
Pada Tabel 3.2 menerangkan atribut/variabel yang akan digunakan dan tidak digunakan dalam penelitian ini. Indikator “√” menandakan bahwa atribut tersebut akan digunakan, sedangkan indikator “X” menandakan bahwa atribut tersebut dieliminasi pada tahap pengolahan data awal. Proses eliminasi atribut/variabel tersebut berdasarkan nilai model yang relatif sama dan tidak mempengaruhi hasil dari proses penilaian.
b) Pre-processing
Pada proses ini akan dilakukan pembersihan data untuk membuang data yang tidak konsisten dan juga memperbaiki data yang rusak. Proses ini berfungsi untuk memastikan bahwa data yang telah dipilih layak untuk dilakukan proses pemodelan. Pada tahap ini dilakukan proses
47
menghilangkan atribut/variabel Nama Barang sebagai ID karena tidak akan digunakan pada proses pemodelan.
Tabel 3.3 Proses Cleaning Data
Masa Simpan Suhu Warna NG Proses
(WIP) Hasil
> 2 Tahun 24°C-26°C BAGUS NG MUSNAH
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 2 Tahun 24°C-26°C TIDAK NG MUSNAH
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 1 Tahun 24°C-26°C BAGUS OK MUSNAH
> 2 Tahun 24°C-26°C BAGUS OK MUSNAH
> 2 Tahun 27°C-30°C TIDAK OK MUSNAH
> 1 Tahun 24°C-26°C TIDAK OK MUSNAH
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 2 Tahun 27°C-30°C TIDAK NG MUSNAH
> 2 Tahun 24°C-26°C BAGUS OK MUSNAH
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
> 1 Tahun 24°C-26°C TIDAK OK MUSNAH
> 1 Tahun 27°C-30°C TIDAK OK MUSNAH
> 1 Tahun 27°C-30°C TIDAK OK MUSNAH
> 1 Tahun 24°C-26°C BAGUS OK TIDAK
< 1 Tahun 24°C-26°C BAGUS OK TIDAK
Keterangan attribut pada tabel diatas (Tabel 3.3) adalah sebagai berikut : a. Keterangan suhu
24℃ − 26℃ = Normal 27℃ − 30℃ = Tidak Normal
47
Pada Tabel 3.4 dibawah ini akan dijelaskan mengenai gambaran warna SPLS yang bagus. Jika tidak sesuai dengan warna standar maka barang tersebut dikategorikan warnanya tidak bagus.
Tabel 3.4 Keterangan Warna Bagus
Nama
Barang Warna Bagus
SPLS NHL
SPLS NMI
SPLS NWL
c) Split Validation
Pada proses ini yaitu membagi data menjadi dua bagian secara acak yaitu sebagian sebagai data training dan sebagian lagi data testing dengan menggunakan teknik sampling random sistematik (Systematic Random Sampling). Cara penggunaan teknik sampling random sistematik ini
47
dilakukan hanya satu kali perandoman atau pengundian. Penentuan unsur sampling selanjutnya ditempuh dengan cara memanfaatkan interval sampel.
Interval sampel (sampling ratio) diperoleh dengan cara membagi ukuran populasi dengan ukuran sampel yang dikehendaki (N/n). Hasil perhitungan untuk mengambil data testing adalah sebagai berikut :
Jumlah populasi (N) = 200
Jumlah data testing = 20% x 200 = 40 Jumlah sampel (n) = 40
Interval sampling (k) = 𝑁
𝑛 =200
40 = 5
Unsur pertama yang diambil untuk data testing (s) = 1 Unsur kedua = s + k
Unsur Ketiga = s + 2k
Unsur Keempat = s + 3k, dan seterusnya hingga unsur ke-n
Pembagian data menjadi data training dan data testing pada penelitian ini menggunakan split ratio 80% untuk data training dan 20% untuk data testing.
Dari hasil diatas diperoleh data testing sebanyak 40 data barang, maka sisanya yaitu 160 data barang dijadikan data training.
47
No Masa
Simpan Suhu Warna
NG Proses
(WIP) Hasil
1 > 2 Tahun 24°C-26°C BAGUS NG MUSNAH
2 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
3 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
4 > 2 Tahun 24°C-26°C TIDAK NG MUSNAH
5 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
6 > 1 Tahun 24°C-26°C BAGUS OK MUSNAH
7 > 2 Tahun 24°C-26°C BAGUS OK MUSNAH
8 > 2 Tahun 27°C-30°C TIDAK OK MUSNAH
9 > 1 Tahun 24°C-26°C TIDAK OK MUSNAH
10 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
11 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
12 > 2 Tahun 27°C-30°C TIDAK NG MUSNAH
13 > 2 Tahun 24°C-26°C BAGUS OK MUSNAH
14 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
15 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
16 > 1 Tahun 24°C-26°C TIDAK OK MUSNAH
17 > 1 Tahun 27°C-30°C TIDAK OK MUSNAH
18 > 1 Tahun 27°C-30°C TIDAK OK MUSNAH
19 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
20 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
.... ... .... .... .... ....
160 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
47
No Masa
Simpan Suhu Warna
NG Proses
(WIP) Hasil
1 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
2 < 1 Tahun 24°C-26°C BAGUS NG MUSNAH
3 > 2 Tahun 24°C-26°C BAGUS OK TIDAK
4 > 2 Tahun 24°C-26°C BAGUS OK TIDAK
5 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
6 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
7 > 2 Tahun 24°C-26°C TIDAK NG MUSNAH
8 > 1 Tahun 24°C-26°C BAGUS OK TIDAK
9 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
10 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
11 > 2 Tahun 24°C-26°C BAGUS OK TIDAK
12 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
13 > 2 Tahun 24°C-26°C BAGUS OK TIDAK
14 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
15 > 2 Tahun 24°C-26°C BAGUS NG MUSNAH
16 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
17 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
18 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
19 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
20 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
.... .... .... .... .... ....
40 < 1 Tahun 24°C-26°C BAGUS OK TIDAK
D. Fase Pemodelan (Modelling Phase)
Metode yang diusulkan dalam proses pemodelan penelitian tugas akhir ini adalah algoritma C4.5. Pengukuran akurasi dalam penelitian ini akan menggunakan aplikasi RapidMiner.
Processing Menentukan atribut data set Data Set New Data Modelling Menggunakan data mining klasifikasi algoritma C4.5 Training Evaluation Menggunakan RapidMiner dengan confusion matrix & kurva ROC/AUC
47
Gambar 3.4 Model penelitian yang diusulkan
Metode Algoritma C4.5 dipilih karena salah satu kelebihannya adalah dapat menangani data numerik dan diskret, menggunakan rasio perolehan (gain ratio). Ada beberapa tahap dalam membentuk pohon keputusan dengan algoritma C4.5 antara lain :
a) Pilih data training, dimana data tersebut akan diklasifikasikan.
b) Menentukan akar pohon, akar akan diperoleh dari penghitungan nilai gaindari masing masing atribut yang sudah terpilih. Nilai gain tertinggi akan dijadikan sebagai akar pertama dalam pohon keputusan. Sebelum menghitung nilai gain, hitung dulu nilai entropy dengan rumus sebagai berikut :
𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 = −𝑝𝑖
𝑛
𝑖=1
× log2𝑝𝑖
c) Hitung nilai gain dengan rumus sebagai berikut :
𝐺𝑎𝑖𝑛 𝑆, 𝐴 = 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆 − 𝑆𝑖 𝑆
𝑛
𝑖=1
× 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 𝑆1
d) Ulangi langkah 2 hingga semua record terpartisi e) Proses perhitungan akan berhenti saat :
47
Semua record pada simpul N mendapat kelas yang sama Tidak ada atribut didalam record yang akan dipartisi lagi Tidak ada record didalam cabang yang kosong.
E. Fase Validasi dan Evaluasi ( Evaluation Phase )
Dalam tahapan ini akan dilakukan validasi serta pengukuran keakuratan hasil yang dicapai dengan menggunakan perhitungan manual dan aplikasi RapidMiner.
F. Fase Penyebaran ( Deployment Phase )
Hasil dari proses penyebaran adalah adanya pohon keputusan dengan hasil yang akurat dan memiliki fungsi sebagai pembuktian sebuah kasus.