PENUTUP - Prediksi penjualan helm menggunakan algoritma naïve bayesian (studi kasus : distribus

Dalam bab ini berisi tentang kesimpulan dan saran dari keseluruhan penulisan tugas akhir.

BAB II

LANDASAN TEORI

Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan menggunakan algoritma naïve bayesian.

2.1. Penambangan Data

2.1.1. Pengertian Penambangan Data

Penambangan Data, sering juga disebut Knowledge Discovery in Database (KDD), adalah serangkaian kegiatan dari data yang jumlahnya besar berupa input yang diproses dengan tujuan mendapatkan ouput, tidak sekedar informasi tetapi berupa pengetahuan (knowledge) yang sering diperoleh, tidak diketahui atau tersembunyi, serta tujuannya untuk pengambilan keputusan atau

decision making (Han & Kamber, 2006).

Gambar 2.1 Langkah-langkah Penambangan Data

Sumber: Tan, Steinbach, Kumar (2004)

Penemuan pengetahuan ini merupakan sebuah proses seperti ditunjukkan pada gambar 2.1 dan terdiri dari urutan-urutan sebagai berikut (Han & Kamber, 2006):

1. Pembersihan data (data cleaning)

Pada langkah ini noise dan data yang tidak konsisten akan dihapus. Langkah pertama yang dilakukan dalam proses pembersihan data (data cleaning atau disebut juga data cleansing) adalah deteksi

ketidakcocokan. Ketidakcocokan tersebut dapat disebabkan oleh beberapa faktor antara lain desain form masukan data yang kurang baik sehingga menyebabkan munculnya banyak field, adanya kesalahan petugas ketika memasukkan data, dan adanya kesalahan yang disengaja dan adanya data yang rusak.

2. Integrasi data (data integration)

Pada langkah ini akan dilakukan penggabungan data. Data dari bermacam-macam tempat penyimpanan data akan digabungkan ke dalam satu tempat penyimpanan data yang koheren. Macam-macam tempat penyimpanan data tersebut termasuk multiple database, data cube, atau file flat. Pada langkah ini, ada beberapa hal yang perlu diperhatikan yaitu integrasi skema dan pencocokan objek, redundansi data, deteksi dan resolusi konflik nilai data. Selama melakukan integrasi data, hal yang perlu dipertimbangkan secara khusus adalah masalah struktur data. Struktur data perlu diperhatikan ketika mencocokkan atribut dari satu basis data ke basis data lain.

3. Seleksi data (data selection)

Data yang relevan akan diambil dari basis data untuk dianalisis. Pada langkah ini akan dilakukan analisis korelasi untuk analisi fitur. Atribut-atribut data akan dicek apakah relevan untuk dilakukan penambangan data. Atribut yang tidak relevan ataupun atribut yang mengalami redundansi tidak akan digunakan. Atribut yang diharapkan adalah atribut yang bersifat independen. Artinya, antara atribut satu dengan atribut yang lain tidak saling mempengaruhi.

4. Transformasi data (data transformation)

Data ditransformasikan ke dalam bentuk yang tepat untuk ditambang. Yang termasuk dalam langkah transformasi data adalah penghalusan yaitu menghilangkan noise yang ada pada data, pengumpulan (aggregation) yaitu mengaplikasikan kesimpulan pada data, generalisasi (generalization) yaitu mengganti data

primitif atau data level rendah menjadi data level tinggi, normalisasi (normalization) yaitu mengemas data atribut ke dalam skala yang kecil, sebagai contoh -1.0 sampai 1.0, dan konstruksi atribut atau fitur (attribute construction atau feature construction) yaitu mengkonstruksi dan menambahkan atribut baru untuk membantu proses penambangan.

5. Penambangan data (data mining)

Langkah ini adalah langkah yang penting di mana akan diaplikasikan metode yang tepat untuk mengekstrak pola data. 6. Evaluasi pola (pattern evaluation)

Langkah ini berguna untuk mengidentifikasi pola yang benar dan menarik. Pola tersebut akan direpresentasikan dalam bentuk pengetahuan berdasarkan beberapa pengukuran yang penting. 7. Presentasi pengetahuan (knowledge presentation)

Pada langkah ini informasi yang sudah ditambang akan divisualisasikan dan direpresentasikan kepada pengguna. Langkah 1 sampai dengan langkah 4 merupakan langkah praproses data di mana data akan disiapkan terlebih dahulu untuk selanjutnya dilakukan penambangan.

Pada langkah penambangan data, pengguna atau basis pengetahuan bisa dilibatkan. Kemudian pola yang menarik akan direpresentasikan kepada pengguna dan akan disimpan sebagai pengetahuan yang baru.

2.1.2. Pengelompokan Penambangan Data

Penambangan data dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan, yaitu (Larose, 2005):

1. Deskripsi

Terkadang peneliti dan analisis secara sederhana ingin mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Sebagai contoh, petugas pengumpulan suara mungkin tidak dapat menemukan keterangan atau fakta bahwa siapa yang

tidak cukup profesional akan sedikit didukung dalam pemilihan presiden. Deskripsi dari pola dan kecenderungan sering memberikan kemungkinan penjelasan untuk suatu pola atau kecenderungan.

2. Estimasi

Estimasi hampir sama dengan klasifikasi, kecuali atribut target lebih ke arah numerik daripada ke arah kategori. Model dibangun menggunakan record lengkap yang menyediakan nilai dari atribut target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari atribut target dibuat berdasarkan atribut prediksi.

3. Prediksi

Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. 4. Klasifikasi

Dalam klasifikasi, terdapat target atribut kategori. Sebagai contoh, menentukan apakah suatu transaksi kartu kredit merupakan transaksi yang curang atau bukan.

5. Pengklusteran

Pengklusteran merupakan pengelompokkan record, pengamatan, atau memperhatikan dan membentuk kelas objek-objek yang memiliki kemiripan. Kluster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam kluster lain. Pengklusteran berbeda dengan klasifikasi yaitu tidak adanya atribut target dalam pengklusteran. Algoritma ini mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok-kelompok yang memiliki kemiripan (homogeny), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal.

6. Asosiasi

Tugas asosiasi dalam penambangan data adalah menemukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut analisis market basket.

2.1.3. Klasifikasi

Klasifikasi merupakan model atau classfier yang dikonstruksikan untuk memprediksi kategori label (categorical labels). Contoh kasusnya adalah aman atau berbahaya untuk sebuah data aplikasi, ya dan tidak untuk data penjualan. Klasifikasi dan prediksi numerik adalah dua tipe utama dari masalah-masalah prediksi (prediction problems). Cara klasifikasi bekerja, di mana klasifikasi data (data classification) terdiri dari dua langkah proses, yaitu:

Langkah-1 : Penggolong (classifier) mendiskripsikan pembangunan himpunan dari kelas-kelas data atau konsep- konsep yang telah ditetapkan. Bagian ini merupakan langkah pembelajaran atau fase pelatihan (learning step atau

training phase), di mana algoritma klasifikasi yang dibangun digolongkan melalui menganalisa atau dari mana pembelajaran itu berasal (learning from), sebuah training set akan dibuat dari database tuples dan label-label kelas yang berhubungan satu dan lainnya. Sebuah tuple, X, dinyatakan sebagai sebuah n- dimensional

attribute vector, di mana X = (x1, x2,...,xn), menggambarkan ukuran n tuple dari n atribut-atribut basisdata, A1,A2, ...., An. Setiap tuple, X, diasumsikan termasuk dalam kelas predefined yang ditentukan oleh atribut basis data lainnya yang disebut class label attribute. Karena label kelas dari setiap tuple pelatihan sudah tersedia maka fase ini juga dikenal dengan sebutan fase supervised learning.

Langkah-2 : Tingkat akurasi dari suatu klasifikasi. Model langsung akan langsung digunakan untuk diklasifikasi. Pertama, akan ditaksir seberapa akurat prediksi yang dibuat oleh

classifier. Jika kekuatan classifier diukur dengan menggunakan data pelatihan, maka taksiran ini akan baik karena classifier cenderung overfit data. Maka dari itu, perlu digunakan sekumpulan data uji. Data tersebut dipilih secara acak dari sekumpulan data umum. Data yang diuji ini bersifat independen atau berdiri sendiri dari data pelatihan, artinya data yang diuji tersebut tidak lagi digunakan untuk membuat classifier.

2.2. Teorema Bayesian

2.2.1. Pengertian Teorema Bayesian

Teori keputusan Bayes atau sering disebut teorema Bayes adalah pendekatan statistic yang fundamental dalam pengenalan pola atau

pattern recognition (Santosa, 2007). Pendekatan teorema Bayes ini didasarkan pada kuantifikasi trade-off antara berbagai keputusan klasifikasi dengan menggunakan probabilitas dan nilai yang muncul dalam keputusan-keputusan tersebut.

Jika X adalah bukti atau kumpulan data pelatihan, � adalah hipotesi, dan jika class variable memiliki hubungan tidak

deterministic dengan atribut, maka dapat diperlukan X dan � sebagai atribut acak dan menangkap hubungan peluang menggunakan �� . Peluang bersyarat ini juga dikenal dengan probabilitas posterior untuk

�, dan P( �) adalah probabilitas prior.

Untuk mengestimasi peluang posterior secara akurat untuk setiap kombinasi label kelas yang mungkin dan nilai atribut adalah masalah sulit karena membutuhkan training set sangat besar, meski untuk jumlah moderate atribut. Penggunaan teorema Bayes untuk melakukan klasifikasi sangat bermanfaat karena menyediakan pernyataan istilah peluang posterior dari peluang prior ( �), peluang

kelas bersyarat � � dan bukti ( �) seperti pada rumus 2.1 berikut: (Han & Kamber, 2006)

... (2.1) dalam hal ini:

X = Himpunan data training.

Y = Hipotesis.

( �| �) = Probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis Y berdasarkan kondisi X.

( _�) = Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa hipotesis Y bernilai benar sebelum data X muncul.

( �) = Probabilitas dari data X.

( �| �) = Probabilitas bersyarat dari X berdasarkan kondisi pada hipotesis Y, dan biasa disebut dengan likelihood. Likelihood ini mudah untuk dihitung ketika memberikan nilai 1 saat X dan Y konsisten, dan memberikan nilai 0 saat X dan Y tidak konsisten.

2.2.2. Klasifikasi Naïve Bayesian

Klasifikasi Naïve Bayesian merupakan salah satu metod pengklasifikasian yang berdasarkan pada penerapan teorema Bayes

dengan asumsi antara atribut penjelas saling bebas (independen). Algoritma ini memanfaatkan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi probabilitas di masa depan berdasarkan pengalaman dimasa sebelumnya. Klasifikasi naïve bayesian diasumsikan dimana nilai atribut dari sebuah kelas dianggap terpisah dan independen dengan nilai atribut lainnya, kondisi seperti ini dinyatakan dengan rumus 2.2 seperti berikut ini: (Han & Kamber, 2006)

... (2.2) Keterangan:

Y = Hipotesis.

( �| �) = Probabilitas posterior, yaitu probabilitas bersyarat dari hipotesis Y berdasarkan kondisi X

( �) = Probabilitas prior dari hipotesis Y, yaitu probabilitas bahwa hipotesis Y bernilai benar sebelum data X muncul.

( _�) = Probabilitas dari data X.

( �1| �), ( �2| �), ( ��| �) = Probabilitas dari X1, X2, Xn untuk hipotesis Y, biasa disebut dengan likelihood. Karena P(X) irrelevant, maka untuk mencari peluang hanya menggunakan rumus berikut ini: (Han & Kamber, 2006)

... (2.3) Jika ada P(Xn|Y) yang memiliki nilai 0, maka P(Y\X) = 0. Maka klasifikasi naïve bayesian tidak bisa memprediksi record yang salah satu atributnya memiliki probabilitas bersyarat (likelihood) = 0. Untuk mengatasi hal itu, dilakukan penambahan nilai 1 ke setiap evidence

dalam perhitungan sehingga probabilitas tidak akan bernilai 0. Langkah ini sering disebut laplace estimator dengan rumus sebagai berikut: (Santosa, 2007)

... (2.4) dimana:

n = total jumlah instances dari kelas Yj.

nc = jumlah contoh training dari Yj yang menerima nilai Xi.

m = parameter yang dikenal sebagai ukuran sampel ekuivalen. Cara kerja klasifikasi naïve bayesian: (Santosa, 2007)

1. Misalkan � adalah kumpulan data pelatihan dari tuple dan � berhubungan dengan label kelas.

2. Andaikan ada �� kelas, �1, �2, … , ��. Jika disediakan tuple x, klasifikasi naïve bayesian memprediksi x ke dalam kelas yang mempunyai probabilitas posterior tertinggi. Maka penggolong

naïve bayesian memprediksi tuple x termasuk ke dalam kelas ��

... (2.5) Dengan demikian (y��|x) akan dimaksimalkan. Kelas �� untuk setiap (y��|x) yang dimaksimalkan dinamakan maximum posteriori hypothesis. Berdasarkan teorema bayes adalah:

... (2.6) 3. Selama P(x) konstan untuk semua kelas maka hanya P(x|yi)P(y)

yang dimaksimalkan. Jika kelas probabilitas prior tidak diketahui, maka kelas-kelas tersebut diasumsikan sama, yaitu P(y1) = P(y2) = … = P(yn). Oleh karena itu, P(x|yi) akan dimaksimalkan. Jika tidak,

P(x|yi)P(y) yang akan dimaksimalkan. 2.2.3. Contoh Kasus Klasifikasi Naïve Bayesian

Pada tabel 2.1 adalah contoh kasus yang akan diselesaikan dengan algoritma naïve bayesian.

Tabel 2.1 Data Status Membeli Motor

Id-Pelanggan Pendapatan Peringkat Kredit ^{Status Membeli} Motor

Honda-001 Tinggi Bagus Ya

Honda-002 Rendah Cukup Tidak

Honda-003 Rendah Bagus Ya

Honda-004 Sedang Cukup Ya

Honda-005 Tinggi Bagus Tidak

Honda-006 Tinggi Cukup Tidak

Honda-007 Sedang Bagus Tidak

Honda-008 Sedang Bagus Ya

Honda-009 Tinggi Cukup Ya

Tabel 2.1 memperlihatkan data training dengan atribut:

pendapatan dan peringkat kredit. Sedangkan atribut label kelas adalah status membeli motor. Berikut ini adalah penyelesaian contoh kasus mengguakan algoritma naïve bayesian:

Terdapat dua kelas dari klasifikasi yang dibentuk, yaitu: C1 = Membeli Motor = Ya

C2 = Membeli Motor = Tidak

Data yang akan diklasifikasikan adalah X = (Pendapatan = “Tinggi”, Peringkat Kredit = “Cukup”).

Langkah-langkah Perhitungan, sebagai berikut: 1. Mencari P(Ci), sebagai berikut:

P(Ci) merupakan prior probability untuk setiap kelas berdasar data, yaitu:

P(Ci) = _{a �}^{a �} _{a �}^{a a �C}_{a a} P(C1) = 5/9 = 0.556 P(C2) = 4/9 = 0.444

2. Untuk menghitung �� , untuk i=1,2 akan dihitung probabilitas bersyarat (likelihood), sebagai berikut:

P(Xj|Ci) = ^{� � ∩� �� }_{� �}

Likelihood Untuk atribut Pendapatan (X1) = “Tinggi”. P(X1|C1) = ²^�9 9 = ²= 0.400 P(X1|C2) = ²^�9 9 = ²= 0.500

Likelihood Untuk atribut Peringkat Kredit (X2) = “Cukup”. P(X2|C1) = ²^�9 9 = ²= 0.400 P(X2|C2) = ²^�9 9 = ²= 0.500 Laplace Estimator

Bila ditemukan salah satu atribut yang memiliki probabilitas bersyarat (likelihood)=0, maka dilakukan penambahan nilai satu ke setiap evidence sehingga tidak ada probabilitas yang akan bernilai 0. Pada kasus di atas tidak mengimplementasikan laplace estimator, karena tidak ada atribut nilai likelihood=0.

3. Menghitung P(X|Ci), sebagai berikut:

P(X| Membeli Motor = “Ya”) = 0.400 x 0.400 = 0.160 P(X| Membeli Motor = “Tidak”) = 0.500 x 0.500 = 0.250

4. Dari probabilitas-probabilitas tersebut, maka dilanjutkan dengan menghitung P(X|Ci) x P(Ci), sebagai berikut:

P(X|Membeli Motor = “Ya”) x P(Membeli Motor = “Ya”) = 0.160 x 0.556 = 0.089

P(X|Membeli Motor = “Tidak”) x P(Membeli Motor = “Tidak”) = 0.250 x 0.444 = 0.111

5. Hasil persentasi kedua prediksi diatas, sebagai berikut:

Untuk membeli motor =”Ya” adalah: 0.089/(0.089+0.111) x 100% = 44.5%

Untuk membeli Motor =”Tidak” adalah: 0.111/(0.111+0.089+) x 100% = 55.5%

6. Kesimpulan, sebagai berikut:

Dari hasil P(X|Ci) x P(Ci) di atas dapat disimpulkan bahwa data X termasuk ke dalam kelas membeli motor = “Tidak”, karena data yang digunakan adalah data yang memiliki nilai peluang terbesar atau maksimal yaitu = 0.111.

2.2.4. Karakteristik Klasifikasi Naïve Bayesian

Naïve bayesian Classifier umumnya memiliki karakteristik sebagai berikut: (Santosa, 2007)

1. Kokoh untuk atribut irrelevant, jika Xi adalah atribut yang

irrelevant, maka ( �i| �) menjadi hampir didistribusikan seragam. Peluang kelas bersyarat untuk �i tidak berdampak pada keseluruhan perhitungan peluang posterior.

2. Atribut yang dihubungkan dapat menurunkan kemampuan klasifikasi naïve bayesian karena asumsi independen bersyarat tidak lagi menangani atribut tersebut.

2.2.5. Kelebihan dan Kekurangan Klasifikasi Naïve bayesian

Algoritma naïve bayesian memiliki beberapa kelebihan dan kekurangan yaitu sebagai berikut: (Santosa, 2007)

Kelebihan naïve bayesian, antara lain: 1. Menangani kuantitatif dan data diskrit.

2. Hanya memerlukan sejumlah kecil data pelatihan (training) untuk mengestimasi parameter yang dibutuhkan untuk klasifikasi.

3. Kokoh terhadap atribut yang tidak relevan.

Kekurangan naïve bayesian, antara lain: (Santosa, 2007)

1. Tidak berlaku jika probabilitas kondisionalnya adalah nol, apabila nol maka probabilitas prediksi akan bernilai nol juga.

2. Mengasumsikan variabel bebas. 2.3. K-Fold Cross Validation

Cross Validation adalah salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model prediktif. Dalam k-fold cross validation, data akan dipartisi secara acak ke dalam k partisi, D1,

D2,…,Dk, masing-masing D mempunyai jumlah yang sama. Pada iterasi

ke-i partisi Di digunakan sebagai data uji, sedangkan sisa partisi

digunakan sebagai data pelatihan. Pada iterasi pertama, D1 digunakan

sebagai data uji dan D2, D3,….,Dk digunakan sebagai data pelatihan. Pada iterasi kedua, D2 digunakan sebagai data uji, sedangakan D1, D3,….,Dk digunakan sebagai data pelatihan. Pada iterasi ketiga, D3

digunakan sebagai data uji, sedangkan D1, D3,….,Dk digunakan sebagai data pelatihan dan seterusnya. Setiap sample D, hanya digunakan sekali sebagai data uji dan berkali-kali sebagai data pelatihan. Untuk pengklasifikasian, pengukuran keakurasian dapat dihitung dengan rumus, sebagai berikut:

BAB III

ANALISA DAN PERANCANGAN SISTEM

Pada bab ini dijelaskan analisis sistem yang akan dibuat dan perancangan untuk melakukan prediksi dalam pendistribusian produk helm di perusahaan XYZ dengan menggunakan algoritma naïve bayesian.

3.1 Analisis Sistem

Sistem yang dibuat memiliki kemampuan untuk memprediksi pendistribusian suatu produk helm di perusahaan XYZ berdasarkan wilayah, warna, merk, dan tipe. Sistem prediksi pendistribusian penjualan produk helm ini menggunakan algoritma naïve bayesian. Data penjualan yang dibutuhkan adalah data penjualan helm di perusahaan XYZ di tahun 2014. Data-data penjualan ini akan diubah menjadi data berbentuk nominal pada saat tahap

pre-processing sehingga dapat diolah dengan teknik naïve bayesian. Selanjutnya, data penjualan akan masuk ke dalam proses training dan testing, serta pada akhirnya akan mendapatkan keputusan atau output berupa daerah atau wilayah pemasaran dari suatu produk helm yang ditentukan. Sistem ini akan diimplementasikan ke sebuah aplikasi dengan menggunakan bahasa pemrograman Java.

3.2 Tahap-Tahap KDD (Knowledge Discovery in Database)

Setelah data mentah diperoleh maka selanjutnya dilakukan proses KDD (Knowledge Discovery in Database) dengan tahapan seperti berikut ini: 1. Pembersihan data (Data Cleaning)

Pada tahap ini juga dilakukan penyeleksian atribut-atribut pada data penjualan yang tidak relevan terhadap penelitian yang dilakukan, seperti satuan, size, harga jual, quantity, discount, harga satuan, sisa pesan, status

retur order, dan status nota kredit. Pada data penjualan mentah yang diperoleh dari perusahaan terdapat beberapa record yang mempunyai data yang tidak lengkap (missing value). Jumlah data awal yang diperoleh

adalah 834 records untuk data penjualan yang telah berlangsung di tahun 2014 di atas dapat dilihat pada lampiran3 dalam tugas akhir ini.

2. Seleksi data (Data Selection) dan Integrasi data (Data Integration)

Tahap selanjutnya akan dilakukan penyeleksian terhadap data-data penjualan yang kurang relevan dengan penelitian yang dilakukan. Setelah dilakukan proses penyeleksian data kemudian tahap selanjutnya dilakukan penggabungan seluruh data yang telah diperoleh yang dikenal dengan integrasi data. Data mentah yang diperoleh disajikan secara terpisah, yaitu data penjualan dan data penjualan kanvaser. Data penjualan yang sama disatukan dalam satu file yang berekstensi .csv atau .xls sesuai dengan atribut-atribut yang sesuai dari penelitian. Setelah disatukan dalam satu

file, maka data penjualan dapat disimpan dalam tabel pada database. Hasil pada tahap ini yaitu sample data penjualan tahun 2014 yang telah dilakukan disimpan dalam file dataTraining_dataSet.csv atau dataTraining_dataSet.xls.

3. Transformasi data

Pada tahap transformasi data, data penjualan diklasifikasikan menjadi wilayah-wilayah tertentu sesuai dengan hasil yang pernah didapatkan. Untuk memudahkan proses penambangan data, maka sample data yang telah digabungkan pada proses intergrasi data akan dikelompokkan berdasarkan wilayah atau daerah yang sudah ditetapkan oleh perusahaan. 4. Penerapan teknik data mining

Data-data penjualan yang telah diolah pada tahap sebelumnya kemudian akan diolah menggunakan algoritma naïve bayesian. Data penjualan yang digunakan untuk penelitian terbatas pada beberapa hasil dari transaksi penjualan yang telah dilakukan oleh perusahaan XYZ. a. Variabel Input

Variabel-variabel yang menjadi variable input dalam sistem ini, antara lain merk, tipe, dan warna dari produk suatu helm.

b. Variabel Output

Proses prediksi akan menghasilkan hasil prediksi wilayah atau daerah tertentu yang sesuai dengan produk helm yang ditentukan. Pada

penelitian ini, keterangan wilayah atau daerah akan menjadi hasil atau keluaran yang berupa prediksi pendistribusian penjualan suatu produk helm.

5. Evaluasi pola yang ditemukan

Pada tahap ini akan dilakukan proses untuk mengukur akurasi sistem yang telah dibuat. Proses pengukuran akan dilakukan menggunakan teknik

k-fold cross validation. K-fold cross validation merupakan salah satu metode yang bisa digunakan untuk mengukur kinerja dari sebuah model

prediktif. Dalam k-fold cross validation, data akan dikelompokkan ke dalam k buah partisi atau kelompok dengan ukuran yang sama. Masing-masing kelompok akan mengalami posisi sebagai data testing dan sebagai data training. (Han&Kamber, 2001). Metode pengukuran cross validation

dengan nilai fold = 10.

Akhir dari tahap ini adalah diperolehnya presentase akurasi antara data training dengan data testing, sehingga dapat ditentukan tingkat keberhasilan proses penambangan data yang telah dilakukan. Rumus untuk menghitung akurasi dapat dilihat pada rumus (3.1), sebagai berikut:

3.3 Analisis Kebutuhan Pengguna 3.3.1 Diagram Model Use Case

Gambar 3.1 Use case sistem

Pada gambar 3.1 direpresentasikan semua aktivitas yang dilakukan oleh user dalam sistem ini, yaitu input data training, prediksi helm, cetak hasil prediksi, dan evaluasi sistem. Dalam gambar 3.1 terdapat keterangan sebelum user melakukan prediksi helm, maka user wajib melakukan input data training terlebih dahulu. Sementara itu, sebelum melakukan cetak hasil prediksi, maka user

wajib melakukan prediksi helm terlebih dahulu. 3.3.2 Tabel Ringkasan Use Case

Tabel 3.1 Ringkasan Use Case

Nama Use Case Keterangan Pelaku

Input Data Training

Use case ini merupakan proses memasukkan data training berupa data penjualan yang kemudian akan digunakan untuk pre-processing dan menghasilkan model training yang digunakan untuk proses prediksi.

User

Evaluasi Sistem ^{Use case}^{ini merupakan proses penggambaran}

Prediksi Helm

Use case ini merupakan proses memasukan data penjualan berupa data tunggal atau data kelompok ke dalam sistem.

User

Cetak Hasil Prediksi ^{Use case}^{ini merupakan proses mencetak dari}

hasil prediksi helm yang dilakukan. ^User 3.3.3 Narasi Use Case

Tabel 3.2 Narasi Use Case : Input Data Training

Author (s) : Carolus Benny Dwi Setiawan Date : 17 Desember 2014

Aktor : User sistem Versi : 02

Nama Use Case Input data training

Use case type :

Use Case ID UCPrediksiHelm001

Prioritas High

Aktor Utama User

Aktor Lain yang

berperan

-Interested stakeholders User sistem

Diskripsi ^{Use case}memasukkan data^{ini mendiskripsikan proses dimana} training yang kemudian akan digunakan untuk ^User ^sistem proses prediksi.

Prakondisi ^User_training^{sistem di halaman utama dan telah menyiapkan}_{yang akan dimasukkan sebagai data}_training_. ^file^data Post Kondisi User sistem telah siap untuk melakukan prediksi dari data training

yang dimasukkan.

Langkah Umum _{Aksi Aktor} _{Reaksi Sistem}

- Langkah 2

User sistem memilih menu

“Input Data Training”. - Langkah 4

User sistem memilih data atau file yang ingin dimasukkan dengan memilih tombol “Pilih File

Training”. - Langkah 6

User sistem melakukan pencarian file yang sesuai pada direktori yang dipilihnya.

- Langkah 1

Sistem menampilkan halaman home User sistem. - Langkah 3

Sistem menampilkan halaman input data training. - Langkah 5

Sistem menampilkan file chooser yang memudahkan untuk memasukkan file. - Langkah 7

Sistem menampilkan data pada tabel yang ada sesuai dengan isi file yang telah dipilih.

- Langkah 8

User sistem memilih tombol

“Simpan Hasil Training”.

- Langkah 10

User memberikan nama dan menentukan lokasi penyimpanan file model training yang dihasilkan sistem. User Memilih tombol “Save”.

- Langkah 9

Sistem akan melakukan proses pembentukan model training dari data-data yang telah diinputkan. Sistem

Dalam dokumen Prediksi penjualan helm menggunakan algoritma naïve bayesian (studi kasus : distribusi perusahaan XYZ di wilayah Jawa Tengah dan Daerah Istimewa Yogyakarta). (Halaman 26-126)