BAB III METODE PENELITIAN
3.2 Analisis Data Knowledge Discovery in Database (KDD)
Dalam pengumpulan data terdapat sebanyak 121 data dan memiliki 5 atribut. Setelah data di dapatkan maka ada beberapa tahapan preparation data. Preparation data merupakan tahapan untuk mendapatkan data yang berkualitas dan mempermudah proses perhitungan data mining, maka dapat dilakukan beberapa teknik sebagai berikut :
A. Data Cleaning
Pada tahap ini dilakukan proses pembersihan data untuk memastikan data yang telah dipilih layak atau tidak dalam proses permodelan data mining. Dalam penelitian ini dilakukan pembersihan data dengan cara menghilangkan data yang tidak lengkap dan mengisi nilai-nilai yang hilang, data yang tidak lengkap (missing value).
Gambar 3.1 Statistik Data Tidak Lengkap Sumber : Data Primer , 2018.
Pada Gambar 3.1 tidak ditemukan adanya data yang tidak lengkap ataupun nilai yang hilang, maka proses cleaning tidak perlu dilakukan.
B. Data Selection
Berikut adalah tabel 3.1 yang merupakan tabel atribut yang akan digunakan dalam proses perhitungan decision tree C4.5.
Tabel 3.1 Atribut yang digunakan
No Atribut Tipe
1 Produk Text
2 Merek Text
3 Jenis Produk Text
4 Harga Currency
5 Terjual Numeric
Sumber : Data Primer, 2018. C. Data Transformation
Setelah data sudah dipilih maka dilakukan tahapan untuk melakukan transformasi terhadap atribut, transformasi akan dilakukan untuk memodifikasi sumber data ke format yang berbeda yang dapat diterima oleh proses data mining pada tahap selanjutnya. Transformasi nilai-nilai dari dari atribut juga perlu dilakukan sehingga dapat mengakibatkan proses pengenalan pola data dan pembentukan keputusan menjadi lama. Berikut ini adalah tranformasi yang dilakukan oleh penulis :
1. Klasifikasi Jenis Produk
Pada atribut jenis produk terdapat empat value yaitu aksesoris, regular, nominal, dan kuota. Untuk melakukan klasifikasi pada value nominal dan kuota dapat menggunakan rumus sturgess yaitu :
Klasifikasi kuota internet, jumlah kelas = 1 + 3.3 log 44 = 6,423393832 dibulatkan menjadi 6. Range = (50 – 1) / 6 = 8,166666667, dibulatkan menjadi 8.
Tabel 3.2 Klasifikasi Kuota internet Klasifikasi Kuota Internet
1 - 9 Kuota Sangat Kecil KSK
17,2 - 25,2 Kuota Sedang KS
25,3 - 33,3 Kuota Besar KB
33,4 - 41,4 Kuota Besar Sekali KBS
41,5 - 50 Kuota Sangat Besar Sekali KSBS
Klasifikasi nominal voucher pulsa jumlah kelas = 1 + 3.3 log 25 = 5,613202029 dibulatkan menjadi 6. Range = (100.000 – 5.000) / 6 = Rp15.833.
Tabel 3.3 Klasifikasi Nominal Pulsa
Nominal pulsa Klasifikasi
Rp5.000 - Rp20.833 Nominal Sangat Kecil NKS
Rp20.834 - Rp36.668 Nominal Kecil NK
Rp36.669 - Rp52.502 Nominal Sedang NS
Rp52.503 - Rp68.336 Nominal Besar NB
Rp68.337 - Rp84.171 Nominal Besar Sekali NBS
Rp84.172 - Rp100.000 Nominal Sangat Besar Sekali NSBS
Setelah klasifikasi kuota dan nominal telah di lakukan maka didapat klasifikasi jenis produk sebagai berikut :
Tabel 3.4 Klasifikasi Jenis Produk
Jenis Produk Klasifikasi
1 - 9 Kuota Sangat Kecil KSK
9,1 - 17,1 Kuota Kecil KK
17,2 - 25,2 Kuota Sedang KS
25,3 - 33,3 Kuota Besar KB
33,4 - 41,4 Kuota Besar Sekali KBS 41,5 - 50 Kuota Sangat Besar Sekali KSBS Rp5.000 - Rp20.833 Nominal Sangat Kecil NKS
Rp20.834 - Rp36.668 Nominal Kecil NK
Rp36.669 - Rp52.502 Nominal Sedang NS
Rp52.503 - Rp68.336 Nominal Besar NB
Rp68.337 - Rp84.171 Nominal Besar Sekali NBS Rp84.172 - Rp100.000 Nominal Sangat Besar Sekali NSBS
Aksesoris ACC
Gadget GGT
2. Klasifikasi Harga
Pada klasifikasi harga penulis membuat 5 kelas yaitu harga paling rendah, harga rendah, harga menengah, harga tinggi, dan harga paling tinggi. Maka Range = (3.500.000 – 5.000) / 5 = Rp699.000.
Tabel 3.5 Klasifikasi Harga
Harga Klasifikasi
Rp5.000 - Rp704.000 Harga Paling Rendah HPR
Rp704.001 - Rp1.403.001 Harga Rendah HR
Rp1.403.002 - Rp2.102.002 Harga Menengah HM Rp2.102.003 - Rp2.801.003 Harga Tinggi HT Rp2.801.004 - Rp3.500.000 Harga Paling Tinggi HPT
3. Klasifikasi Terjual
Atribut terjual adalah atribut special dimana atribut ini dijadikan sebagai label prediksi. Pada klasifikasi Terjual penulis membuat 4 kelas yaitu kurang laris, normal, laris, dan sangat laris. Maka Range = (134 – 0) / 4 = 33,5.
Tabel 3.6 Tabel Terjual Terjual Klasifikasi 0 - 33,5 Kurang Laris 33,6 - 67,1 Normal 67,2 - 100,7 Laris 100,8 - 134 Sangat Laris D. Mining Process
Pada tahap ini Peneliti menentukan teknik data mining yang digunakan untuk mengolah data yang sudah disiapkan sebelumnya. Teknik yang dilakukan yaitu dengan prediktive menggunakan algoritma decision tree C4.5. Data yang sudah melalui proses pengolahan 121 data yang dibagi menjadi dua bagian secara acak, 80% data training dan 20% data testing. Dengan menggunakan Split Validation akan dilakukan percobaan training berdasarkan split ratio yang telah ditentukan sebelumnya, untuk kemudian sisa dari split ratio data training akan dianggap sebagai data testing. Data training adalah data yang akan dipakai
dalam melakukan pembelajaran sedangkan data testing adalah data yang belum pernah dipakai sebagai pembelajaran dan akan berfungsi sebagi data pengujian kebenaran dan keakurasian hasil pembelajaran. Data testing dilakukan menggunakan teknik sampling random sistematik (System random sampling). Cara penggunaan teknik sampling sistematik perandoman atau pengundian acak secara satu kali, ketika menentukan unsur pertama dari sampling yang akan diambil. Dataset berjumlah 121 kAsus data training diambil 20% dari dataset maka 100 x 20% = 24.2 dibulatkan menjadi 24 data. Perhitungan interval data untuk mengambil data ke-i = jumlah seluruh kAsus data / (20% seluruh kAsus data) = 121/24 = 5.041666666 dibulatkan menjadi 5 maka data testing dapat diambil secara acak setiap kelipatan 5. Dari data tersebut diperoleh data testing sebanyak 24 data uji penduduk, maka sisanya dijadikan data training sebanyak 97 data.
Tabel 3.7 Data Testing Penjualan Produk JST Cell
No Produk Merek Jenis
Produk Harga Terjual
1 Charger Vivo ACC HPR Laris
2 Flashdisk Sandisk KSK HPR Laris
3 Flashdisk Samsung KSK HPR Normal
. . . . . .
. . . . . .
. . . . . .
22 Voucher Telkomsel Telkomsel NK HPR Kurang Laris
23 Voucher Three Three KSK HPR Laris
24 Voucher Three Three KSK HPR Sangat Laris
Tabel 3.8 Data Training Penjualan Produk JST Cell
No Produk Merek Jenis
Produk Terjual Harga
1 Charger Nokia ACC Kurang Laris HPR
2 Charger Samsung ACC Laris HPR
3 Charger Oppo ACC Laris HPR
. . . . . .
. . . . . .
94 Voucher XL xl axiata NKS Kurang Laris HPR
95 Voucher XL xl axiata NKS Kurang Laris HPR
96 Voucher XL xl axiata NK Kurang Laris HPR
Data yang sudah melalui proses pengolahan kemudian akan dilakukan perhitungan dengan menggunakan tools rapidminer. Dua langkah yang dilakukan pada tahap ini ialah :
1. Perhitungan decision tree secara manual
Data yang akan digunakan dalam perhitungan secara manual yaitu 24 sampel data testing. yang diambil 20% dari dataset penjualan JST Cell secara acak oleh peneliti
2. Pengujian decision tree menggunakan rapidminer
Pengujian dengan menggunakan rapidminer bertujuan untuk memudahkan dan membandingkan dalam pemrosesan data secara manual.
E. Pattern Evaluation
Melakukan pengujian terhadap model-model yang bertujuan untuk mendapatkan model yang paling akurat. Pada tahap evaluasi, akan diketahui apakah hasil dari tahap pemodelan dapat menjawab tujuan yang telah ditetapkan pada tahap pertama. Untuk itu akan dilakukan pola pada decision tree yang telah terbentuk. Sehingga diharapkan mendapatkan informasi atau pola yang berguna sebagai prediksi produk terlaris untuk mengelola modal usaha pada JST Cell Cikarang.
F. Knowledge Presentation
Visualisasi dan penyajian pengetahuan berdasarkan hasil yang telah didapat pada tahap sebelumnya untuk memperoleh pengetahuan yang telah diperoleh.