PREDIKSI PENJUALAN BRAND DI HGVR STORE MENGGUNAKAN ALGORITMA C4.5 DAN NAÏVE BAYES

(1)

PREDIKSI PENJUALAN BRAND DI HGVR STORE MENGGUNAKAN ALGORITMA C4.5 DAN NAÏVE BAYES

Oleh : Aiman Nur Roji Program Studi Teknik Informatika

Universitas Pelita Bangsa

Jl. Inspeksi Kalimalang Jl. Tegal Danas No.9, Cibatu, Kec. Cikarang Pusat, Bekasi, Jawa Barat 17530

Abstrak

Penjualan suatu produk atau brand yang berada pada sebuah perusahaan atau dalam hal ini yang dilakukan oleh HGVR store harus memiliki sebuah performa nilai penjualan yang sangat baik. Klasifikasi penjualan yang terjadi harus memiliki sebuah status nilai penjualan yang baik. HGVR store sebagai sebuah toko penjualan produk atau brand yang bergerak di bidang pakaian telah dilakukan sebuah pengujian hasil penjualan yang telah terjadi. Hasil penjualan yang sudah ada bisa menghasilkan sebuah prediksi penjualan berikutnya.

Prediksi yang dilakukan untuk melakukan hasil performa dari sebuah penjualan di HGVR Store akan menggunakan dua buah Instrument penting sebagai penunjang hasil yang efektif. Instrumen yang diberikan adalah sebuah pemilahan data yang telah didapat dari pencatatan data selama periode bulan Juni 2018-Juni 2019. Instrumen yang digunakan menggunakan dua buah pendekatan metode, yaitu narasi pendekatan menggunakan sebuah Klasifikasi dengan sistem Algoritma C.45 dan pendekatan menggunakan Naïve Bayes.

Penggunaan Metode Algoritma C.45 dan Naives bayes dalam proses penilaian prediksi Penjualan menghasilkan 3 parameter, yaitu Precision,Recall, dan Accuracy.Pada C.45 nilai Accuracy sebesar 94,86%,Precision 95,59%, dan Recall 96,44%, Sedaangkan pada Naives bayes Accuracy 88%, Precision 82,61%, dan Recall 79,17 % Kesimpulan dari dua pengujian metode diatas bahwa algoritma C 4.5 memiliki tingkat akurasi yang lebih baik

Kata kunci : Algoritma C.45, Naïve Bayes, Penjualan Brand.

Pendahuluan

Dalam dunia bisnis yang selalu dinamis dan penuh persaingan para pelakunya harus selalu memikirkan cara- cara untuk terus survive dan jika mungkin mengembangkan skala bisnis mereka.

Untuk mencapai hal itu, ada tiga kebutuhan bisnis yang dapat dilakukan, yaitu penambahan jenis maupun

peningkatan kapasitas produk, pengurangan biaya operasional toko, dan peningkatan efektifitas pemasaran serta keuntungan. Agar bisa memenuhi kebutuhan-kebutuhan bisnis di atas banyak cara yang dapat ditempuh salah satunya adalah dengan melakukan analisis data pada toko HGVR Store.

(2)

HGVR Store bergerak dalam bidang distribusi brand.

Analisis terhadap penjualan brand dengan teknik lain perlu dilakukan untuk meminimalisir masalah tersebut. Teknik data mining merupakan proses menentukan pola dan informasi dari data yang berjumlah besar. Proses di dalam data mining untuk membedakan kelas data atau konsep yang bertujuan agar dapat digunakan untuk memprediksi kelas dari objek yang label kelasnya tidak diketahui dikenal sebagai klasifikasi.

Metode klasifikasi yang digunakan yaitu Algoritma C4.5 dan Naïve bayes dengan menggunakan bantuan aplikasi software Rapidminer 9.0.

Algoritma C4.5 merupakan algoritma yang digunakan untuk membentuk pohon keputusan (Decision Tree). Pohon keputusan merupakan metode klasifikasi dan prediksi yang terkenal. Pohon keputusan berguna untuk mengekspolari data, menemukan hubungan tersembunyi antara sejumlah calon variabel input dengan sebuah variabel target. Banyak algoritma yang dapat dipakai dalam pembentukan pohon keputusan, antara lain : ID3, CART, dan C4.5. Algoritma C4.5 merupakan pengembangan dari algoritma ID3, Proses pada pohon keputusan adalah mengubah bentuk data (tabel) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan. (Luvia, 2016).

Naive Bayes merupakan algoritma klasifikasi yang sederhana dimana setiap atribut bersifat berdiri sendiri (independent) dan memungkinkan

berkontribusi terhadap keputusan akhir.

(Budiman,2015). Walaupun atribut diasumsikan berdiri sendiri, Naive Bayes telah terbukti efektif dan efisien. Efisiensi dari Naive Bayes juga berlaku di dalam domain dimana atribut tidak berdiri sendiri (independent). Klasifikasi dokumen merupakan salah satu domain dimana Naive Bayes berhasil digunakan walaupun pada atribut tertentu memiliki ketergantungan dengan atribut lainnya.

Naive Bayes juga bekerja dengan baik pada banyak permasalahan kompleks, salah satunya prediksi penjulan sebuah bisnis yang dilakukan oleh sebuah perusahaan atau toko. (Danubianu, 2011).

Metode Penelitian A. Pengumpulan Data

Kegiatan observasi dilakukan untuk mendapatkan pengetahuan,informasi, dan pemahaman. Informasi yang digunakan dalam penelitian ini bersumber dari HGVR Store. Guna mendukung penelitian yang dilakukan, penulis menggunakan data primer yang berasal dari objek penelitian. Data yang didapat dari penelitian ini adalah data primer yang bersifat privat atau pribadi yang dibutuhkan untuk pengembangan sistem dan perhitungan. Data tersebut diperoleh dari HGVR Store berupa data data penjualan bulan juni 2018 – juni 2019.

Setelah ditetapkan sumber data, tahapan selanjutnya adalah pengumpulan data.

Dalam melakukan pengumpulan data

(3)

pada penelitian ini digunakan metode observasi. Metode ini dilakukan untuk memperoleh informasi yang mendukung dan pemikiran relevan yang akan digunakan dalam penelitian meliputi:

1. Mengetahui jumlah penjualan produk-produk brand yang ada di HGVR Store.

2. Mengetahui minat kustomer untuk membeli produk-produk brand yang ada di HGVR Store.

Hasil observasi yang dilakukan didapatkan data yang berasal dari pusat data informasi yang dikelola HGVR Store dan data yang didapatkan tersebut bersifat privat dan rahasia. Data tersebut yang nantinya akan digunakan pada penelitian ini dan data yang digunakan yaitu data pada bulan juni 2018 - 2019 di HGVR Store. Dataset yang didapatkan akan dibagi menjadi 2 (dua) yaitu data training dan data testing. Data training digunakan untuk mengetahui probabilitas guna melakukan klasifikasi untuk pengambilan keputusan sedangkan data testing digunakan untuk eksperimen dalam penelitian ini.

Berikut adalah tabel keterangan data yang hendak diuji :

Tabel 1. Transformasi data Attribute Indikator Detail

Nama rand Ok Id

Po Ok Nilai Model

Qty Ok Nilai Model

Harga Ok Nilai Model

Jenis No -

Product ine No -

status Ok Label

Tabel 2. Cleaning data

BRAND PO QTY HARGA STATUS Hangover 14 168 Rp150,000 TINGGI Dammit 35 420 Rp135,000 TINGGI Skymo 13 156 Rp150,000 TINGGI Hangover 18 216 Rp150,000 TINGGI Dammit 11 132 Rp150,000 RENDAH Grass 20 240 Rp150,000 RENDAH Dammit 11 132 Rp150,000 TINGGI Doktrin 22 264 Rp150,000 RENDAH Doktrin 20 240 Rp150,000 RENDAH

Tabel 3. Transformasi data Attribute Nilai

Attribute

Range PO

PO Rendah <23

Sedang =23 Tinggi >23

QTY Sedikit <276

Normal =276

Tinggi >276 Harga Rendah <135000

Tinggi >150000 Status Rendah

Tinggi

B. Penerapan Algoritma Naïve Bayes Pada kajian pustaka yang telah dibahas pada Bab 2, penggunaan metode Naive Bayes berpotensi menentukan probabilitas guna melakukan klasifikasi apakah nasabah tersebut termasuk dalam kategori lancar atau macet. Berikut ini

(4)

langkah-langkah penerapan metode Naive Bayes. Penerapan model Naive Bayes Classifier dilakukan berdasarkan model yang telah dibangun sebelumnya yang digunakan untuk menentukan atribut atau class dari suatu data baru yang atribut atau class-nya belum diketahui sebelumnya. Flowchart proses Naive Bayes Classifier adalah sebagai berikut:

Gambar 1. Flowchart RapidMiner Mulai dari tahap awal mengidentifikasi sampel dari dataset yaitu data Nominatif Penjualan. Selanjutnya P(Xi|Ci) menghitung jumlah class dari klasifikasi yang sudah diketahui yaitu class Penjualan Tinggi dan Penjualan Rendah untuk setiap class. Kemudian P(X|Ci) menghitung jumlah kasus yang sama dari kelas yang sama X, dalam kasus dataset pada penelitian ini terdiri dari 2 (dua) class yaitu nasabah dengan kelas Penjualan Tinggi, yang dinyatakan dengan simbol “1” dan nasabah dengan kelas Penjualan Rendah yang dinyatakan dengan simbol “2”. Kemudian hitung

P(X|Ci),i=1,2 untuk setiap kelas atau atribut. Setelah itu dibandingkan, jika (X|C1)>P(X|C2) maka kesimpulannya adalah C1 atau pada penelitian ini berarti Penjualan Tinggi. Jika(X|C1)<P(X|C2) maka kesimpulannya C2 atau Penjualan Rendah.

C. Penerapan Algoritma C4.5

Dalam Algoritma C4.5 untuk membangun pohon keputusan hal pertama yang dilakukan yaitu memilih atribut sebagai akar. Kemudian dibuat cabang untuk tiap-tiap nilai didalam akar tersebut. Langkah berikutnya yaitu membagi kasus dalam cabang. Kemudian ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.

1. Tahapan membuat pohon keputusan Ada beberapa tahapan dalam membuat sebuah pohon keputusan dalam Algoritma C4.5 yaitu :

a. Pilih atribut sebagai akar.

b. Membuat cabang untuk masing- masing nilai.

c. Membagi kasus dalam cabang.

d. Melakukan proses perulangan untuk masing- masing cabang sampai semua kasus pada cabang memiliki kelas yang sama.

e. Mempersiapkan data training. Data training biasanya diambil dari data histori yang pernah terjadi sebelumnya atau disebut data masa lalu dan sudah dikelompokkan ke dalam kelas-kelas tertentu.

f. Menghitung akar dari pohon. Akar akan diambil dari atribut yang akan

(5)

terpilih, dengan cara menghitung nilai gain dari masing– masing atribut, nilai gain yang paling tinggi yang akan menjadi akar pertama.

Sebelumnya menghitung nilai gain dari atribut, hitung dahulu nilai entropy.

g. Entropy adalah kebutuhan bit untuk menyatakan suatu kelas, semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas. Suryanto. 2014)

2. Rumus mencari nilai Entropy

Untuk menghitung nilai entropy digunakan rumus :

𝐸𝑛𝑡𝑟𝑜𝑝𝑦(𝑠)

= ∑ −𝑝𝑖 𝑙𝑜𝑔_2𝑝𝑖… … … . .

𝑛

𝑖=1

Keterangan :

Entropy = kebutuhan bit untuk menyatakan suatu kelas, semakin kecil nilai entropy maka semakin baik digunakan dalam mengekstraksi suatu kelas.

S = Himpunan kasus n = jumlah partisi S

|Si| = jumlah kasus pada partisi ke i

Pi = proporsi Si terhadap S 3. Rumus Mencari Log

Sedangkan rumus untuk mencari log digunakan rumus :

𝑙𝑜𝑔₂(𝑥)

= 𝐼𝑛(𝑥)

𝐼𝑛(2)… … … ….

Kunci pencarian Entropy Kemudian mengulang kembali langkah ke dua hingga semua record terpartisipasi.

Proses partisi pohon keputusan akan berhenti saat :

a. Semua record dalam sampul N mendapat kelas yang sama

b. Tidak ada atribut di dalam record yang dipartisi lagi

c. Tidak ada record di dalam cabang yang kosong.

4. Rumus Gain

Untuk memilih atribut dengan akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain digunakan rumus sebagai berikut:

𝐺𝑎𝑖𝑛 (𝑆, 𝐴)

= 𝑒𝑛𝑡𝑟𝑜𝑝𝑦(𝑆)

− ∑ |𝑆𝑖|

𝑆

𝑛 𝑖=1

∗ 𝐸𝑛𝑡𝑟𝑜𝑝𝑦 (𝑆𝑖) … … … Keterangan :

S = Himpunan Kasus A = Atribut

n = jumlah partisi atribut A

|Si| = jumlah kasus pada partisi ke i

|S| = jumlah kasus dalam S D. Akurasi dan Validasi

(6)

Dalam penelitian ini untuk mengukur tingkat akurasi metode klasifikasi menggunakan algoritma Naive Bayes akan melibatkan metode sebagai alat ukur yaitu Confusion Matrix dan Kurva ROC (Receiver Operating Characteristic) 1. Confusion Matrix

Metode ini menggunakan tabel matriks seperti pada Tabel 2.3 jika suatu dataset memiliki 2 kelas, kelas yang satu dianggap kelas positif dan yang lainnya merupakan kelas negatif (Saefulloh, 2013).

Tabel 2. Model Confusion Matrix Klasifikasi Diklasifikasikan

sebagai Class = Yes

Class = No Class =

Yes

True positives

False negatives Class =

No

False positives

True negatives Keterangan dari tabel Confusion Matrix tersebut sebagai berikut:

a. True Positives (TP) : proporsi benar dalam dataset yang dikategorikan benar.

b. False Negatives (FN) : proporsi salah dalam dataset yang dikategorikan salah.

c. False Positives (FP) : proporsi salah dalam dataset yang dikategorikan benar.

d. True Negative (TN) : proporsi benar dalam dataset yang dikategorikan salah.

Berdasarkan pada keterangan table diatas, berikut merupakan persamaan dari model Confusion Matrix:

a. Nilai Akurasi (acc) merupakan proporsi dari jumlah prediksi yang benar. Berikut ini merupakan persamaannya:

𝑎𝑐𝑐 = 𝑇𝑃 + 𝑇𝑁

𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 b. Recall atau Sensitivity yang

digunakan untuk memberikan perbandingan antara proporsi TP terhadap proporsi yang benar dengan persamaan sebagai berikut:

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 c. Specificity biasanya digunakan

sebagai permbanding antara proporsi TN terhadap TP yang salah, berikut ini merupakan persamaannya:

𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑇𝑁 𝑇𝑁 + 𝐹𝑃 d. Precision atau Positive Predictive

Value (PPV) merupakan proporsi suatu kejadian dengan hasil diagnosa benar. Persamaannya sebagai berikut:

𝑃𝑃𝑉 = 𝑇𝑃

𝑇𝑃 + 𝐹𝑃

e. Negative Predictive Value (NPV) merupakan proporsi suatu kejadian dengan hasil diagnosa salah.

Persamaannya sebagai berikut:

𝑁𝑃𝑉 = 𝑇𝑁

𝑇𝑁 + 𝐹𝑁 E. Preprocessing data

a. Pembersihan Data (Data Cleaning) Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten. Pada tahap ini data- data yang memiliki isian tidak sempurna seperti data yang tidak

(7)

memiliki kelengkapan atribut yang dibutuhkan dan data yang tidak valid dihapus dari database.

b. Integrasi Data (Data Integration) Integrasi data merupakan proses kombinasi beberapa sumber data ke dalam database. Pada tahap ini dilakukan penggabungan data dari berbagai sumber untuk dibentuk penyimpanan data yang koheren.

c. Seleksi Data (Data Selection)

Seleksi data merupakan pemilihan data yang digunakan untuk proses data mining. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan suatu berkas dan terpisah dari basis data operasional.

d. Transformasi Data (Data Transformation)

Transformasi data merupakan proses

mentransformasi dan

mengkonsolidasi data yang digunakan untuk proses mining. Pada tahap ini dilakukan pengubahan format data menjadi format yang sesuai dengan teknik data

mining yang digunakan.

Hasil Penelitian dan Pembahasan A. Pengolahan Data Awal

Tahapan pengolahan data awal antara lain select data, cleaning data, Transformation dan Integration. Data yang sudah tersedia selanjutnya pemilihan terhadap parameter yang akan dainalisis. Parameter yang diambil adalah atribut dari Data Penjualan Brand yang telah didapatkan sebelumnya dari sumber yang terpercaya yaitu HGVR Store, yang

akan digunakan untuk menjadi masukan atau variable input.

Tabel 1. Data HGVR store Attribute Nilai

Attribute

Range PO

PO Rendah <23

Sedang =23 Tinggi >23

QTY Sedikit <276

Normal =276

Tinggi >276 Harga Rendah <135000

Tinggi >150000 Status Rendah

Tinggi

Setelah melalui Tahapan pengolahan data awal antara lain select data, cleaning data, Transformation dan Integration, maka dapat dihasilkan data yang hendak diuji adalah sebagai berikut :

Tabel 3. Data hasil preprocessing Attribute Nilai Attribute

PO Rendah

Sedang Tinggi

QTY Sedikit

Normal Tinggi

Harga Rendah

Tinggi

Status Rendah

Tinggi

(8)

B. Pengujian Algoritma C4.5

Proses pengujian memiliki beberapa proses diantaranya menentukan node root, menghitung nilai akurasi dan kurva ROC untuk menentukan kategori hasil penelitian. Pada tahap ini metode data mining diterapkan untuk menemukan prediksi kelayakan kredit pada data.

Metode yang digunakan adalah klasifikasi dengan algoritma C4.5. Berikut adalah langkah pada tools RapidMiner untuk mengetahui bentuk dari decision tree pada data training :

Gambar 2. Tampilan C4.5 RapidMiner

Berikut adalah hasil dari perngujian C4.5 menggunakan RapidMiner :

Gambar 3. Hasil Pengujian C4.5 RapidMiner

Selanjutnya adalah pengujian Confusion Matrix bertujuan untuk mengetahui nilai accuracy, precision, dan recall pengujian data training dan data test. Pada tahapan pengujian Confusion Matrix penulis akan menentukan hasil data test.

1. Data Test I

Pada data test I data yang digunakan sebanyak 350 data, dengan nilai Rendah sebanyak 123 dan Tinggi sebanyak 227.

Setelah dilakukan pengujian menggunakan algoritma C4.5 menghasilkan Confusion Matrix sebagai berikut :

Tabel 4. Confusion Matrix data test I C4.5

Accuracy

True Rendah

True Tinggi

Class Prediction Pred.Rendah 217 10 95,59

Pred.Tinggi 8 115 93,50 Class Recal 96,44 92

Accuracy = ^{( 𝑇𝑃+ 𝑇𝑁 )}

( 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 ) =

( 217+115 )

( 217+ 115 + 8 + 10 ) = ³³²

350 = 1 = 94,86

%

(9)

 Perhitungan seharusnya ( positive class : RENDAH)

 Precision = ^𝑇𝑃

( 𝑇𝑃+𝐹𝑁 ) =

217

( 217+10 ) = ²¹⁷

227 = 1 = 95,59 %

 Recall = ^𝑇𝑃

( 𝑇𝑃+𝐹𝑃 ) = ²¹⁷

( 217+8 ) =

227

227 = 1 = 96,44 %

Setelah dilakukan seluruh tahapan evaluasi tahapan untuk Confusion Matrix di dapatkan hasil pengujian diatas dikelompokan seperti table di bawah ini :

Tabel 5. Hasil Confusion Matrix data test I C4.5

Akurasi Precision Recall 94.86% 95.59% 96.44%

C. Pengujian Algoritma Naïve Bayes Pada tahap ini metode data mining diterapkan untuk menemukan prediksi kelayakan kredit pada data. Metode yang digunakan adalah klasifikasi dengan algoritma Naïve Bayes. Berikut adalah langkah-langkah pada tools RapidMiner untuk mengetahui hasil prediksi pada data training terhadap data test:

Gambar 4. Tampilan Naïve Bayes RapidMiner

Pada penelitian ini penulis akan menguji data sebanyak 350 untuk di uji pada algoritma naïve bayes, yang terdiri dari label lancar dan macet dengan jumlah nilai sebanyak 227 Rendah dan 123 Tinggi, dan terdiri dari 4 atribut diantaranya jenis kelamin, pekerjaan, status ekonomi debitur dan kasus kredit, berikut adalah tabel dari probabilitas prior data :

Tabel 14. Probabilitas prior naïve bayes

Berikutnya adalah proses perhitungan probabilitas posterior untuk menentukan prediksi class Tinggi atau Rendah pada contoh kasus sebagai berikut:

Diketahui :

Tabel 15. Probabilitas posterior naïve bayes

Data X P(X|Ci)

Atribut Nilai (Value)

Rendah Tinggi

Brand Hangover 0.666667 0.33333 Po Tinggi 0.245399 0.75460

(10)

Qty Tinggi 0.64 0.333333 Harga Rendah 0.333333 0.666667

Setelah atribut dihitung maka langkah selanjutnya adalah kalikan semua nilai.

Hasil sesuai dengan data X yang dicari class-nya. Berikut ini merupakan perhitungannya :

- P(X|Status=Tinggi)=P(hangover|Ting gi)*P(PO|Tinggi)*P(QTY|Tinggi)*P(

Harga|Rendah)

P(X| Status=Tinggi = 0.3333 * 0.75460 * 0,333333 * 0,6666667 *0,333333 = 0.01863

P(X|Status=Tinggi)* P(Tinggi) = 0,333333 * 0.01863 = 0.00621

- P(X|Status=Rendah)=P(Hangover|Re ndah)*P(PO|Rendah)*P(QTY|Tinggi)

*P(Harga|Tinggi)

P(X| Status=Rendah = 0.333333 * 0.666667 * 0.333333 * 0,666667 * 0.333333 =

0.016461

Dari hasil diatas terlihat bahwa nilai probabilitas tertinggi ada pada class (P | Rendah) sehingga dapat disimpulkan bahwa dalam kasus penjualan brand tersebut masuk dalam klasifikasi Status tinggi dengan akurasi 88%.

3. Data Test I

Pada data test Idata yang digunakan sebanyak 150 data, dengan nilai Tinggi sebanyak 44 dan Rendah sebanyak 106.

Setelah dilakukan pengujian menggunakan algotirma Naïve bayes menghasilkan tabel confusion matrix sebagai berikut :

Tabel 16. Confusion Matrix data test I Naïve bayes

Predicted Tinggi Rendah

Tinggi 38 8

Rendah 10 94

- Accuracy = ^{( 𝑇𝑃+ 𝑇𝑁 )}

( 𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁 ) =

( 38+94 )

( 38+ 94 + 10 + 8 ) = ¹³²

150 = 88 %

- Precision = ^𝑇𝑃

( 𝑇𝑃+𝐹𝑃 ) =

38

( 38+8 ) = ³⁸

46 = 82,61 % - Recall = ^𝑇𝑃

( 𝑇𝑃+𝐹𝑁) = ³⁸

( 38+10 ) =

38

48 = 79,17 %

Setelah dilakukan seluruh tahapan evaluasi tahapan untuk Confusion Matrix di dapatkan hasil pengujian diatas dikelompokan seperti table di bawah ini :

Tabel 17. Hasil Confusion Matrix data test I Naïve bayes

Akurasi Precision Recall 88% 82,61% 79,17%

(11)

Kesimpulan

Dari hasil penelitian yang telah dilakukan oleh peneliti, dapat diperoleh kesimpulan sebagai berikut :

1. Berdasarkan data yang diambil juni 2018 – juni 2019 . Evaluasi dan hasil pengujian yang telah diperoleh terbukti dapat

memprediksi penjualan Brand di HGVR Store dengan hasil lebih baik dalam penjualan merk Brand yang ada.

2. Berdasarkan data evaluasi dan pengujian prediksi yang telah dilakukan, penerapan data mining klasifikasi untuk analisis penjualan brand menggunakan Algoritma decision tree C4.5 dan Algoritma Naives Bayes dengan Rapidminer 9.4 sebagai berikut - Algoritma decision tree C4.5 menghasilkan akurasi sebesar 94,86%, nilai precision 95,59%, nilai recall 96,44% dari total 500 data yang terbagi menjadi data training 350 data (70 %), dan data testing 150 data (30%).

- Algoritma Naives Bayes menghasilkan akurasi sebesar 88%, nilai precision 82,61%, nilai recall 79,17% dari total 500 data

yang terbagi menjadi data training 350 data (70 %), dan data testing 150 data (30%).

3. Berdasarkan dari hasil kedua algoritma yang di lakukan melalui C4.5 dan Naives Bayes , bahwa algoritma c4.5 menghasilkan tingkat akurasi yang lebih baik.

Saran

Untuk meningkatkan kinerja dan menyempurnakan penelitian yang telah dibuat, peneliti memberikan saran sebagai berikut :

1. Penelitian ini dapat dikembangkan dengan menggabungkan atau membandingkan dengan algoritma klasifikasi lain untuk mendapatkan hasil prediksi yang lebih baik.

2. Penelitian ini diharapkan bisa dijadikan sebagai pendukung dalam menentukan penjualan brand yang lebih baik.

3. Sebaiknya jumlah sampel data di tambah, sehingga dapat diperoleh hasil akurasi fungsi algoritma yang lebih baik.

DAFTAR PUSTAKA Azhagusundari, B., & Thanamani, A. (

2013). Feature Selection Based on

(12)

Information Gain. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN:2278-

3075,Volume-2,Issue-2., 18-21.

Berry, Michael J.A, Gordon S, & Linoff.

(2004). Data Mining Techniques for Marketin,Sales, Customer Relationship Management, Second Edition, Willey Publishing, Inc.

Budiman, & Aprisal. (2015).

Implementasi Data Mining Pada Penjualan Produk Di PT Focus Gaya Graha Menggunakan Metode Association Rule.

Danubianu, M. (2011). Mining association rules inside a

relational database-a case study.In : 6th ICCGI. 14-19.

Dumitru, D. (2009). Prediction of recurrent events in breast cancer using the Naive Bayesian classification. Annals of University of Craiova, Math.

Comp. Sci. Ser. Vol. 36, No. 2, pp 92-96, ISSN: 1223–6934.

Gorunescu, F. (2011). Data Mining:

Concepts, Model and Techniques.

Berlin, Jerman: Springer. .

Gorunescu, Florin. . (2011). Data Mining:

Conceptsand Techniques. Verlag berlin Heidelberg:Springer.

Hamidah, I. (2012). Aplikasi Data Mining Untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma C4.5. Bandung.

Han, & Kember. (2006). Data Mining.

Concepts and Techniques,2nd ed.

Haryati, S., Aji, S., & Eko , S. (2015).

IMPLEMENTASI DATA MINING UNTUK

MEMPREDIKSI MASA STUDI MAHASISWA

MENGGUNAKAN

ALGORITMA C4.5. Jurnal Media Infotama Vol. 11 No. 2.

J. S. Parapat, & A. S. Sinaga. (2018).

Data Mining Algoritma C4 . 5 Pada Klasifikasi Kredit Koperasi Simpan Pinjam Data Mining. Ilmu Tek. Elektro Komput. dan Inform., vol. 4, no. 2.

Jananto, A. (2013). Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi Mahasiswa. Jurnal

(13)

Teknologi Informasi DINAMIK Volume 18, No.1.

Kusrini , & Taufiq Luthfi, E. (2009).

ALGORITMA DATA MINING, I ed.

L, L., & T, D. (2011). Feature Selection Methods And Algorithms.

International Journal on Computer Science and Engineering (IJCSE), ISSN : 0975-3397 vol. 3 No. 5.

Luvia, Hartama, & Solikhun. (2016).

PENERAPAN ALGORITMA C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. JURASIK (Jurnal Riset Sistem Informasi &

Teknik Informatika).

Haryati, S., Aji, S., & Eko , S. (2015).

IMPLEMENTASI DATA MINING UNTUK

MEMPREDIKSI MASA STUDI MAHASISWA

MENGGUNAKAN

ALGORITMA C4.5. Jurnal Media Infotama Vol. 11 No. 2.

Luvia, Hartama, & Solikhun. (2016).

PENERAPAN ALGORITMA

C4.5 UNTUK KLASIFIKASI PREDIKAT KEBERHASILAN MAHASISWA DI AMIK TUNAS BANGSA. JURASIK (Jurnal Riset Sistem Informasi &

Teknik Informatika).

Azhagusundari, B., & Thanamani, A. ( 2013). Feature Selection Based on Information Gain. International Journal of Innovative Technology and Exploring Engineering (IJITEE) ISSN:2278-

3075,Volume-2,Issue-2., 18-21.

Berry, Michael J.A, Gordon S, & Linoff.

(2004). Data Mining Techniques for Marketin,Sales, Customer Relationship Management, Second Edition, Willey Publishing, Inc.

Budiman, & Aprisal. (2015).

Implementasi Data Mining Pada Penjualan Produk Di PT Focus Gaya Graha Menggunakan Metode Association Rule.

Danubianu, M. (2011). Mining association rules inside a

relational database-a case study.In : 6th ICCGI. 14-19.

(14)

Dumitru, D. (2009). Prediction of recurrent events in breast cancer using the Naive Bayesian classification. Annals of University of Craiova, Math.

Comp. Sci. Ser. Vol. 36, No. 2, pp 92-96, ISSN: 1223–6934.

Gorunescu, F. (2011). Data Mining:

Concepts, Model and Techniques.

Berlin, Jerman: Springer. .

Gorunescu, Florin. . (2011). Data Mining:

Conceptsand Techniques. Verlag berlin Heidelberg:Springer.

Hamidah, I. (2012). Aplikasi Data Mining Untuk Memprediksi Masa Studi Mahasiswa Menggunakan Algoritma C4.5. Bandung.

Han, & Kember. (2006). Data Mining.

Concepts and Techniques,2nd ed.

J. S. Parapat, & A. S. Sinaga. (2018).

Data Mining Algoritma C4 . 5 Pada Klasifikasi Kredit Koperasi Simpan Pinjam Data Mining. Ilmu Tek. Elektro Komput. dan Inform., vol. 4, no. 2.

Jananto, A. (2013). Algoritma Naive Bayes untuk Mencari Perkiraan Waktu Studi Mahasiswa. Jurnal

Teknologi Informasi DINAMIK Volume 18, No.1.

Kusrini , & Taufiq Luthfi, E. (2009).

ALGORITMA DATA MINING, I ed.

L, L., & T, D. (2011). Feature Selection Methods And Algorithms.

International Journal on Computer Science and Engineering (IJCSE), ISSN : 0975-3397 vol. 3 No. 5.

Madyatmadja, E., & Mediana , A. (2014).

Comparative Study of Data Mining Model for Credit Card Application Scoring Bank.

Journal of Theoretical and Applied Information Technology, Vol. 59 No 2, 269-274.

Nofriansyah, D. (2014). Konsep Data Mining VS Sistem Pendukung Keputusan.

Nugroho, & Sulistyo, Y. (2014).

Penerapan Algoritma C4. 5 Untuk Klasifikasi Predikat Kelulusan Mahasiswa Fakultas Komunikasi Dan Informatika Universitas Muhammadiyah Surakarta. A1–6.

Rahmadya T. H, & Herlawati Prabowo P.

W. (2013). Penerapan Data

(15)

Mining dengan Matlab Bandung:

Rekayasa Sains.

Saefulloh A,. Moedjiono. (2013).

Penerapan Metode Klasifikasi Data Mining Untuk Prediksi Kelulusan Tepat Waktu.InfoSys Journal, volume 2. 41-54.

Subbalakshmi, G., Ramesh, K.,, &

Chinna Rao, M. (2011). Decision Support in Heart Disease

Prediction System using Naive Bayes. Indian Journal of Computer Science and Engineering, 170-176.

Suyanto. (2017). Data Mining untuk Klasifikasi dan Klasterisasi Data.

Bandung:Informatika Bandung.

Turban, Efraim, Aronson, & Jay E.

(2001). Decision Support Systems and Intelligent Systems . 6th edition. Prentice Hall.: Upper Saddle River, NJ.

Xhemali, D., Hinde, C.J. & Stone, R.G.

(2013). Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages. International Journal of Computer Science Issues 4, 16-23.