IMPLEMENTASI DATA MINING DENGAN NAIVE BAYES
CLASSIFIER UNTUK MENDUKUNG STRATEGI PROMOSI
(Studi kasus Universitas Bina Darma Palembang)
Deny Wahyudi1, A.Haidar Mirza,S.T.,M.Kom.2, Merrieayu P.H.,M.Kom.3 1Mahasiswa Universitas Bina Darma, 2,3Dosen Universitas Bina Darma
Email: [email protected] , [email protected]2 , [email protected]3
Universitas Bina Darma Palembang Jl. A Yani No. 12 Plaju, Palembang 30624
ABSTRACK : Data mining is the process of finding new patterns in the data by filtering large quantities. search pattern data mining uses pattern recognition technology that is similar to the statistical techniques and mathematical techniques. Found pattern is expected to provide useful information to produce economic benefits, effectiveness and efficiency. One method is the classification of data mining is data mining techniques have the capability classification which aims to make decisions predict a case, based on the classification results obtained. Naive Bayes classifier algorithm can be used to predict interest in studies based on the evidence provided. Naive Bayes classifier algorithm is one of data mining methods that can be used to support the promotion of effective strategies and efficient. The results of this research is the application of data mining algorithms are built using a Naive Bayes classifier that can provide vital information such as the results predicted interest in the study of students that can be used to help the marketing team Universitas Bina Darma Palembang. The data used is enrollment the previous year. Prediction results obtained, is expected to help to support the promotion strategies that have an impact on the effectiveness and efficiency of the promotion and increase the number of new students who enroll.
Keywords: Data Mining, Naive Bayes, Classification.
ABSTRAK: Data mining adalah proses untuk menemukan pola-pola baru dalam data dengan
menyaring jumlah besar. pola pencarian data mining menggunakan teknologi pengenalan pola yang mirip dengan teknik statistik dan teknik matematika. Pola yang ditemukan diharapkan dapat memberikan informasi yang berguna untuk menghasilkan manfaat ekonomi, efektivitas dan efisiensi. Salah satu metode data mining adalah klasifikasi adalah
teknik data mining yang memiliki kemampuan klasifikasi yang bertujuan mengambil keputusan dengan memprediksikan suatu kasus, berdasarkan hasil klasifikasi yang diperoleh. Algoritma Naive Bayes Classifier dapat digunakan untuk memprediksi minat studi berdasarkan bukti yang diberikan. Algoritma Naive Bayes Classifier merupakan salah satu metode data mining yang dapat digunakan untuk mendukung strategi promosi yang efektif dan efisien. Hasil dari penelitian ini adalah penerapan algoritma data mining yang dibangun menggunakan Naive Bayes Classifier yang dapat memberikan informasi penting seperti hasil prediksi yang menarik dalam studi mahasiswa yang dapat digunakan untuk membantu Tim Pemasaran Universitas Bina Darma Palembang. Data yang digunakan adalah pendaftaran siswa tahun sebelumnya. Prediksi hasil yang diperoleh, diharapkan dapat membantu untuk mendukung strategi promosi yang berdampak pada efektivitas dan efisiensi promosi dan meningkatkan jumlah mahasiswa baru yang mendaftar.
Kata Kunci : Data Mining, Naive Bayes, Klasifikasi.
1. PENDAHULUAN
Dalam hal perencanaan kegiatan promosi guna peningkatan minat calon mahasiswa untuk mendaftar, Unit Pemasaran Universitas Bina Darma membutuhkan masukan – masukan guna meningkatkan minat lulusan Sekolah Menengah Atas (SMA) atau setara yang ada di kota Palembang pada khususnya dan di Sumatera Selatan pada umumnya untuk mejadi Mahasiswa Universitas Bina Darma, hal ini dikarenakan kegiatan promosi yang terdiri dari kegiatan pemasangan iklan, penyebaran brosur dan promosi dengan mengundang sekolah masih belum menyebar luas kedaerah-daerah yang tingkat peminatnya masih rendah sehingga masyarakat yang ada didaerah atau dipedesaan masih belum
banyak yang mengetahui tentang Universitas Bina Darma. Dengan demikian, Unit Pemasaran Universitas Bina Darma Palembang perlu untuk menggali atau mencari informasi dari data pendaftaran tahun-tahun sebelumnya sebagai bahan evaluasi dan analisa untuk mendukung strategi promosi tahun berikutnya. Konsep bayesian classification ditujukan untuk memprediksi probabilitas di masa depan berdasarkan pengalaman di masa sebelumnya.
2. DATA MINING Analisis Data Mining
Yang akan digunakan pada proses
data mining menggunakan Algoritma Naïve Bayes merupakan data mahasiswa
tahun 2014, 2015 dan 2016 yang merupakan gambaran secara nyata mengenai keadaan penerimaan mahasiswa baru untuk seluruh yang ada di lingkungan Universitas Bina Darma. Setelah data di dapat dari Unit Pelaksana Teknis – Sistem Informasi Manajemen (UPT-SIM) Universitas Bina Darma, maka data akan di standarisasi mengikuti proses tahapan
data mining agar data tersebut layak dan
dapat diolah menggunakan software pengolahan data mining RapidMiner . dengan menggunakan algoritma Naïve
Bayes.
Proses Data Mining Knowledge Discovery in Database (KDD)
1) Data Selection
Pada tahap ini data yang digunakan akan diseleksi dengan cara melihat kecenderungan data / kesesuaian data dengan topik/ judul penelitian yang akan diteliti oleh penulis, dalam hal ini data yang di peroleh oleh penulis dari UPT-SIM sudah memiliki kesesuain format data yang terdiri dari atribut tahun_pmb, nama, alamat, asal_sekolah, progdi dan status.
Gambar 3.1. Data Penerimaan Mahasiswa Baru (PMB) Tahun 2014
Gambar 3.2. Data Penerimaan Mahasiswa Baru (PMB) Tahun 2015
Gambar 3.3. Data Penerimaan Mahasiswa Baru (PMB) Tahun 2016
2) Data Preprocessing Atau Data Cleaning Pada tahap ini data yang kosong harus di hilangkan.
Gambar 3.4. Proses Data Cleaning Pada Atribut Asal_Sekolah
Gambar 3.5. Proses Data Cleaning Pada Atribut Alamat dan Asal_Sekolah
3) Data Integration
Tahap integrasi data adalah tahap penggabungan data dari berbagai sumber. Dataset mahasiswa Penerimaan Mahasiswa Baru (PMB) Universitas Bina Darma berasal dari satu sumber yaitu Unit Pelaksana Teknis – Sistem Informasi Manajemen (UPT-SIM), dan dari data yang ada tersebut dapat digunakan untuk proses pengolahan data mining dengan menggunakan metode Naïve
Bayes. Data ini terdiri dari data PMB
untuk tahun 2014, 2015 dan 2016 yang kemudian digabungkan kedalam satu dataset untuk di ubah ke format CSV dengan menggunakan Ms. Excel yang nantinya akan di Import ke dalam Database Mysql untuk proses Data Manipulation.
Gambar 3.6. Gabungan Data PMB tahun 2014-2016
4) Data Transformasi
Ada pun pada tahap ini data akan diubah menjadi bentuk yang sesuai untuk proses data mining. Karena dalam penelitian ini akan dilakukan uji coba secara teoritis dan mengunakan software data mining yaitu RapidMiner, maka data yang telah melalui proses sebelumnya akan di transformasi agar dapat sesuai dengan algoritma yang dipakai yaitu algoritma Naïve Bayes.
Pada tahapan ini atribut yang di pakai akan diberi label mengikuti kondisi data - data pada atribut tersebut : 1. Klasifikasi Atribut Alamat
Berdasarkan hasil data set yang siap untuk di olah terdapat 135 daerah asal dari calon mahasiswa yang mendaftar di Universitas Bina Darma pada tahun 2014 – 2016.
Gambar 3.7. Tampilan Data Alamat Per Daerah
Dikelompokan berdasarkan SMA, SMK, MADRASAH
Gambar 3.8. Klasifikasi Data Asal Sekolah
3. Label status
Terdapat 4 kriteria status seperti pada gambar dibawah
Gambar 3.11. Klasifikasi Data Status
Yaitu LULUS, TIDAK LULUS, REGISTRASI dan DAFTAR. Pada lebel status akan di jadikan sebagai proses untuk melakukan proses eksekusi pada program
rapidminer sehingga harus di golongkan
menjadi 2 kriteria yaitu REGISTRASI dan TIDAK REGISTRASI. Pada status LULUS dan REGISTRASI akan dilabel sebagai status REGISTRASI dan pada status TIDAK LULUS dan DAFTAR akan dilabel sebagai status TIDAK REGISTRASI .
Gambar 3.12. Query Perubahan Klasifikasi Atribut Status
Sehingga menjadi sebagai berikut :
Gambar 3.13. Hasil Perubahan Klasifikasi Atribut Status
Berikut tampilan hasil klasifikasi pada masing – masing atribut pada Mysql :
Gambar 3.14. Hasil dari Proses Klasifikasi Pada Masing – Masing Atribut
Setelah hasil proses klasifikasi tersebut, maka langkah selanjutnya yaitu mengubah format data hasil klasifikasi menjadi format CSV agar dapat di olah dengan menggunakan software data
mining yaitu RapidMiner. Data yang sudah
adalah data yang sudah siap atau sudah bersih dari data yang redundancy dan data yang loss (Kosong) sehingga data tersebut bisa dilakukan proses data mining dengan
naive bayes seperti pada proses tahap hasil
selanjutnya. Berikut gambar dibawah yang siap untuk dilakukan proses data mining dengan naive bayes.
Gambar 3.15. Data SET Format CSV 3. HASIL DAN PEMBAHASAN Hasil
Dari tahapan proses Knowledge
Discovery in Database (KDD) seperti,
Data selection, data preprocessing atau
cleaning, data integration, data
transformasi, dan tahapan selanjutnya data mining dengan Naive Bayes yang akan
menentukan hasil, yang pertama perhitungan data mining secara teoritis atau manual dan yang kedua perhitungan dengan menggunkan software Rapidminer.
Data Mining Dengan Rapidminer
Rapidminer merupakan salah satu software data mining pengolahan data set
untuk mencari pola data sesuai dengan tujuan dari pengolahan data tersebut, tidak semua algoritma yang ada dapat sesuai atau dapat mengolah data set yang ada, harus dilakukan penyesuaian pola data dan sesuai dengan tujuan dari pengolahan data tersebut.
Dalam rangkaian proses data
mining menggunakan rapidminer ini data
yang digunakan adalah data yang telah di transformasi kedalam format Microsoft
Excel 2007 (.CSV). Selanjutnya proses
data mining dilakukan dengan
menggunakan operator Read CSV dapat dilihat pada tampilan dibawah.
Gambar 4.8. Open File Read CSV Model Naïve Bayes Pada Rapidminer.
Setelah proses Open File pada Opeator Read CSV maka langkah selanjutnya membuat model algoritma
naïve bayes. Adapun bentuk dari model naïve bayes yang akan digunakan dapat di
Gambar 4.9. Model Utama Naïve Bayes dengan RapidMinier
Gambar 4.10. Model Sub Proses Pada Cross Validation Rapid Miner
Adapun hasil Accuracy dari
performance vector sebesar 93.44% untuk
proses yang di laksanakan pada model diatas dapat dilihat :
Gambar 4.11. Hasil Performance Vector
Berdasarkan hasil dari perhitungan dengan rapidminer dengan model naive
bayes maka nilai dari simple distribution
yang didapat adalah seperti pada gambar di bawah, yang hasilnya nilai class TIDAK REGISTRASI 0,058 dan nilai class REGISTRASI 0,942. Dimana perhitungan
manual dengan perhitungan pada
rapidminer hasilnya sama.
Gambar 4.12. Hasil Simple Distribution
Pada gambar grafik dibawah dapat menunjukkan hasil dari tingkat rendah dan tingginya pendaftar di Universitas Bina Darma Palembang berdasarkan Alamat, Asal Sekolah dan Program Studi.
Gambar 4.13. Grafik Berdasarkan Alamat
Gambar 4.14. Grafik Berdasarkan Asal Sekolah
Gambar 4.15. Grafik Berdasarkan Progdi
4. KESIMPULAN DAN SARAN Kesimpulan
Adapun kesimpulan dari penelitian mengenai Implementasi data mining dengan Naïve Bayes Classifier dalam mendukung strategi promosi Universitas Bina Darma dalam memprediksi proses REGISTRASI dan TIDAK REGISTRASI mahasiswa menggunakan data set yang sudah melalui tahap awal Knowledge
Dciscovery in Database (KDD) sebanyak
6495 record yang diambil dari data penerimaan mahasiswa baru tahun 2014, 2015 dan 2016 sebagai berikut :
1. Proses pengolahan data mining menggunakan atribut alamat dengan klasifikasi berdasarkan nama kota / nama kabupaten, atribut asal sekolah yang di klasifikasi berdasarkan pendidikan SMA, SMK dan MADRASAH, atribut progdi yang diklasifikasikan berdasakan program studi dari masing – masing fakultas
yang ada dilingkungan Universitas Bina Darma dan atribut status sebagai label dalam proses pengolahan data mining dengan klasifikasi REGISTRASI DAN TIDAK REGISTRASI.
2. Model data mining di buat menggunakan software pengolahan
data mining yaitu Rapidminer, dengan
hasil nilai Probalitas untuk REGISTRASI yaitu 0.942 dengan pembulatan nilai menjadi 0.94 dan nilai probabilitas untuk TIDAK REGISTRASI yaitu 0.057 dengan pembulatan nilai menjadi 0.058
3. Model data mining yang di hasilkan pada Rapidminer dapat memprediksi hasil dengan beberapa kriteria klasifikasi berdasarkan klasifikasi yang dibuat menurut atribut masing – masing mampu menilai seorang calon Mahasiswa Baru.
4. Dengan menggunakan metode Naïve
Bayes Classifier mampu menunjukkan
informasi yang tersembunyi pada data atribut – atribut yang digunakan dalam proses pengolahan data mahasiswa pada proses Penerimaan Mahasiswa Baru (PMB) di Universitas Bina Darma serta memberikan solusi untuk membuat strategi promosi dengan melihat alamat, asal sekolah, dan progdi pilihan dari calon mahasiswa baru tersebut.
Saran
Berdasarkan hasil dan kesimpulan yang telah diuraikan diatas, maka ada beberapa saran yang ingin disampaikan yaitu:
1. Dengan penerapan data mining yang telah dihasilkan, Universitas Bina Darma dapat memanfaatkan informasi dari hasil penerapan data mining dalam memprediksi calon mahasiswa yang akan REGISTRASI atau TIDAK REGISTRASI.
2. Pada penelitian selanjutnya dapat mencoba menggunakan data – data pada dengan kondisi data yang berbeda dan dengan jumlah data yang lebih besar lagi sehingga nilai data selanjutnya yang dihasilkan dapat menghasilkan tingkat akurasi yang lebih tinggi.
3. Selain penerapan secara teoritis dan aplikatif, pada penelitian berikutnya dapat dicoba untuk membuat suatu aplikasi dengan teknik dan algoritma
data mining yang berbeda sehingga
dapat menghasilkan informasi yang berpariasi.
4. Penelitian ini disarankan dapat menjadi bahan referensi yang dipergunakan dan dikembangkan untuk penenlitian selanjutnya.
DAFTAR PUSTAKA
Budi, Santoso, 2007, Data Mining : Teknik Pemanfaatan Data untuk Keperluan Bisnis, Graha Ilmu, Yogyakarta Burhan Alfironi Muktamar.2013.
Implementasi Data Mining Dengan
Naive Bayes Classifier Untuk
Mendukung Strategi Pemasaran Di Bagian Humas STMIK AMIKOM Yogyakarta
Dennis Aprilla C, Donny Aji Baskoro, Lia Ambarwati, and I Wayan Simri Wicaksana, 2013. Belajar Data Mining Dengan RapidMiner. Jakarta Dewanti, Retno, 2008. Kewirausahaan,
Mitra Wacana Media, Jakarta.
Han, Jiawei dan Kamber, Micheline. (2006), Data Mining : Concept and
Techniques Second Edition,
Morgan Kaufmann Publishers. Kotler, Philip dan Armstrong, Gary. 2012.
Principles of Marketing. New Jersey: Prentice Hall.
Kusrini dan Luthfi. E. Taufiq.(2009).Algoritma Data Mining. Yogyakarta: Andi.
Laksana, Fajar. 2008. Manajemen Pemasasaran : Pendekatan Praktis. Edisi Pertama. Cetakan Pertama. Graha Ilmu. Yogyakarta.
Masud Karim dan Rashedur M. Rahman.2012. Decision Tree dan
Algoritma Naive Bayes untuk Klasifikasi dan Generasi Pengetahuan ditindak lanjuti untuk Pemasaran Langsung
Prasetyo,Eko.(2012).Data Mining Konsep dan Aplikasi Menggunakan Matlbab.Yogyakarta: Andi.
Sugiyono. 2012. Metode Penelitian Kuantitatif Kualitatif dan R&D. Bandung: Alfabeta.
Tri Utami Putri.2014. Penerapan Data Mining Untuk Menentukan Strategi Penjualan Pada Toko Buku Gramedia Palembang Menggunakan Metode Clustering
Turban, E., dkk, 2005, Decicion Support
Systems and Intelligent Systems, Andi Offse
www.binadarma.ac.id , website Universitas Bina Darma Palembang pada tanggal 29-05-2016