PENERAPAN DATA MINING DENGAN ALGORITMA
NAÏVE BAYES UNTUK MENGETAHUI MINAT BELI
KONSUMEN TERHADAP KOMPUTER ( STUDY
KASUS DI TOKO I – COMPUTER )
SKRIPSI
Oleh:
SUGIANTO
311410255
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
KONSUMEN TERHADAP KOMPUTER ( STUDY
KASUS DI TOKO I – COMPUTER )
SKRIPSI
Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan Program Strata Satu (S1) pada Program Studi Teknik Informatika
Oleh:
SUGIANTO
311410255
TEKNIK INFORMATIKA
SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA
BEKASI
iv
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang berjudul “PENERAPAN DATA MINING DENGAN ALGORITMA NAÏVE BAYES UNTUK MENGETAHUI MINAT BELI KONSUMEN TERHADAP KOMPUTER ( STUDY KASUS DI TOKO I – COMPUTER )”.
Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa. Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan terima kasih yang sebesar – besarnya kepada:
a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa
b. Bapak Aswan Supriyadi Sunge, S.E., M.Kom selaku Ketua Program Studi Teknik Informatika STT Pelita Bangsa.
c. Bapak Donny Maulana, S.Kom., M.Msi selaku Pembimbing Utama yang telah banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan Skripsi.
d. Bapak Hamzah M. Mardi Putra, S.K.M., M.M selaku Pembimbing Kedua yang telah banyak memberikan arahan dan bimbingan kepada penulis dalam penyusunan Skripsi.
e. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan wawasan dan ilmu di bidang teknik informatika.
f. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya kepada penulis selama perjalanan studi jenjang Strata 1.
g. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat menyelesaikan studi jenjang Strata 1.
v
h. Ibu dan Ayah sekeluarga tercinta yang senantiasa mendoakan dan memberikan semangat dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis. i. Buat Istri dan Anak – anak tercinta yang memberi dukungan dan penyemangat
dalam penyusunan skripsi.
Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT Pelita Bangsa khususnya dan Indonesia pada umumnya.
Bekasi, 31 Oktober 2018
vi
DAFTAR ISI
PERSETUJUAN ... i
PENGESAHAN ... ii
PERNYATAAN KEASLIAN PENELITIAN ... iii
KATA PENGANTAR ... iv DAFTAR ISI ... vi DAFTAR TABEL ... x DAFTAR GAMBAR ... xi ABSTRACT ... xii ABSTRAK ... xiii BAB I PENDAHULUAN ... 1 1.1 Latar Belakang ... 1 1.2 Identifikasi Masalah ... 4 1.3 Rumusan Masalah ... 4 1.4 Batasan Masalah ... 4
1.5 Tujuan dan Manfaat ... 5
1.5.1 Tujuan ... 5
1.5.2 Manfaat ... 5
1.6 Sistematika Penulisan ... 6
vii
2.1 Kajian Pustaka ... 8
2.2 Dasar Teori ... 10
2.2.1 Data Mining ... 10
2.2.2 Pengelompokan Data Mining. ... 11
2.2.3 Tahap – Tahap Data Mining ... 13
2.2.4 Metodelogi Data Mining ... 15
2.2.5 Naive Bayes ... 18
2.2.6 Minat Beli ... 20
2.2.7 Konsumen ... 21
2.3 Objek Penelitian ... 22
2.3.1 Sejarah Toko ... 22
BAB III METODE PENELITIAN... 23
3.1 Jenis Penelitian ... 23
3.2 Tempat dan Waktu Penelitian ... 23
3.2.1 Tempat... 23
3.2.2 Waktu Penelitian ... 23
3.3 Populasi dan Sample Penelitian ... 24
3.3.1 Populasi ... 24
3.3.2 Sampel Penelitian ... 24
3.4 Tahapan Penelitian ... 25
viii
3.6 Rancangan Penelitian ... 27
3.7 Veriable Penelitian ... 28
3.8 Metode Analisis Data ... 28
3.8.1 Persamaan Metode Naive Bayes ... 29
3.8.2 Alur Metode Naive Bayes ... 31
3.9 Evaluasi (Evaluation) ... 34
3.10 Tahap Penelitian ... 34
3.11 Instrument Penelitian ... 35
3.11.1 Bahan... 35
3.11.2 Peralatan ... 36
BAB IV HASIL DAN PEMBAHASAN ... 37
4.1 Penentuan Kriteria ... 37
4.2 Perhitungan Naïve Bayes ... 37
4.2.1 Menghitung Probabilitas Kelas ... 37
4.2.2 Menghitung Probabilitas Masing – Masing Atribut ... 38
4.2.3 Menghitung Probabilitas Akhir Untuk Setiap Kelas ... 39
4.2.4 Kasus Perhitungan Naïve Bayes ... 40
4.3 Implementasi Klasifikasi Naïve Bayes pada Rapid Miner ... 41
4.3.1 Akurasi Prediksi ... 43
BAB V KESIMPULAN ... 47
ix
5.2 Saran ... 47
DAFTAR PUSTAKA ... 49
LAMPIRAN ... 51
Sampel Data Training ... 51
x
DAFTAR TABEL
Tabel 3. 1 Tabel Waktu Penelitian ... 23
Tabel 3. 3 Atribut Data Yang Digunakan ... 28
Tabel 4. 1 Probabilitas Kelas ... 38
Tabel 4. 2 Atribut Pendidikan ... 38
Tabel 4. 3 Atribut Pekerjaan ... 38
Tabel 4. 4 Atribut Penghasilan ... 39
Tabel 4. 5 Atribut Tanggungan ... 39
xi
DAFTAR GAMBAR
Gambar 2. 1 Tahap - Tahap Data Mining ... 14
Gambar 2. 2 Fase CRISP-DM ... 16
Gambar 3. 1 Metode Penelitian ... 25
Gambar 3. 2 Rancangan Penelitian ... 27
Gambar 3. 3 Alur Metode Naive Bayes ... 32
Gambar 3. 4 Tahap Penelitian ... 35
Gambar 4. 1 Proses Rapid Miner ... 42
Gambar 4. 2 Hasil Prediksi Rapid Miner ... 43
Gambar 4. 3 Proses Training dan Testing ... 44
Gambar 4. 4 Accuracy / Akurasi ... 44
xii
ABSTRACT
The i-computer shop is a store that is engaged in buying and selling new or used computers, i-computer stores were pioneered in 2009. Computer technology is now a necessity that is in great demand by the public, especially students, employees, from middle to upper and middle class down. The purpose of this study is to analyze the factors that influence consumer buying interest in computers in the i-computer shop Anjatan. Data mining is a technique that utilizes large amounts of data to obtain valuable information that was previously unknown and can be used for important decision making. One method that can be used for this is the data mining method or the Naive Bayes algorithm method. The Naive Bayes Classifier algorithm is one of the statistical classifiers, where these classifiers can predict the probability of class membership in a data that will enter a particular class, according to the probability calculation. This analysis uses rapidminer which is a data analysis software with several algorithm features that are easy to operate. Prediction results using rapidminer to determine permanent employees quickly and accurately, from testing conducted by comparing training data with testing data obtained an accuracy level of 94,12%.
Keywords: Data mining, consumer buying interest in computers, Naive Bayes Algorithm
xiii
ABSTRAK
Toko i – computer merupakan sebuah toko yang bergerak dibidang jual beli komputer baru atau bekas, toko i – computer dirintis pada tahun tahun 2009. Komputer diera teknologi sekarang menjadi kebutuhan yang banyak diminati masyarakat, khususnya pelajar, pegawai, baik dari masyarakat menengah keatas maupun menengah kebawah.Tujuan dari penelitian ini adalah menganalisis factor – factor yang mempengaruhi minat beli konsumen terhadap komputer di toko i –
computer Anjatan. Data mining adalah teknik yang memanfaatkan data dalam
jumlah yang besar untuk memperoleh informasi berharga yang sebelumnya tidak diketahui dan dapat dimanfaatkan untuk pengambilan keputusan penting.Salah satu metode yang dapat digunakan untuk hal ini adalah dengan metode data mining atau metode algoritma Naive Bayes. Algoritma Naive Bayes Classifier merupakan salah satu pengklasifikasi statistik, dimana pengklasifikasi ini dapat memprediksi probabilitas keanggotaan kelas suatu data yang akan masuk ke dalam kelas tertentu, sesuai dengan perhitungan probabilitas. Analisa ini menggunakan rapidminer yang merupakan software analisa data dengan fitur beberapa algoritma yang mudah untuk dioperasikan. Hasil prediksi menggunakan rapidminer untuk menentukan karyawan tetap dengan cepat dan akurat, dari pengujian yang dilakukan dengan membandingkan data training dengan data testing didapat tingkat akurasi sebesar 94,12%.
Kata kunci: Data mining, Minat beli konsumen terhadap komputer, Algoritma
1
BAB I
PENDAHULUAN
1.1 Latar Belakang
Elektronik bukan lagi barang yang langka, pada zaman globalisasi saat ini produk elektronik sangat dibutuhkan untuk perkembangan zaman. Pada dasarnya globalisasi merupakan proses integrasi internasional yang terjadi karena pertukaran pandangan dunia, produk, pemikiran dan aspek – aspek kebudayaan lainnya. Tidak sedikit jenis – jenis elektronik yang sudah ada, alat – alat elektronik itu sendiri berupa, Televisi, Telephon dan Handphone, Kipas Angin dan AC sebagai pendingin, Kulkas dan Freezer, Komputer dan Laptop, dan masih banyak lagi yang telah dikembangkan oleh perusahaan elektronik dunia (Dama, 2016).
Jumlah penduduk Indonesia yang sangat besar menjadi pasar yang sangat potensial bagi perusahaan – perusahaan untuk memasarkan produk-produk perusahaan tersebut. Perusahaan dalam negeri maupun perusahaan asing berusaha mendirikan usaha bisnis dan menciptakan jenis – jenis produk yang nantinya akan digemari oleh calon pelanggan. Banyaknya perusahaan ini menciptakan adanya suatu persaingan bisnis, perusahaan dapat menjadi pemenang dalam persaingan bisnisnya apabila perusahaan mampu menjaring pelanggan sebanyak – banyaknya. Jika perusahaan dapat menjaring pelanggan sebanyak – banyaknya tentu perusahaan tersebut dapat memperoleh keuntungan yang besar pula. (Bachriansyah, 2011)
Persaingan disuatu perusahaan membuat para pelakunya harus selalu memikirkan strategi – strategi terobosan yang dapat menjamin kelangsungan bisnis
2
mereka. Pada suatu perusahaan memiliki ketersediaan data yang melimpah. Ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan pengetahuan – pengetahuan baru, yang dapat membantu dalam pengaturan strategi dalam menjalankan bisnis. Prediksi minat konsumen akan sangat penting bagi perusahaan, dimana dengan adanya prediksi minat konsumen perusahaan dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi konsumennya (Nofriansyah, Erwansyah, & Ramadhan, 2016).
Aplikasi data mining ini memanfaatkan data masukan berupa data produk dan data penjualan. Dari data tersebut, akan diolah dengan metode interpolasi dan untuk menganalisis data juga menggunakan teknik interpolasi. Setelah melewati proses tersebut, maka akan didapatkan pola – pola dalam pengambilan keputusan. Aplikasi data mining dengan metode interpolasi untuk memprediksi minat konsumen fashion inputnya adalah data penjualannya, dan produk yang telah dibeli oleh customer. Sedangkan outputnya adalah prediksi minat konsumen fashion yaitu seberapa banyak customer yang tertarik pada suatu produk (Sitaba, 2011).
Kemajuan ilmu pengetahuan dan teknologi saat ini telah melahirkan era baru dalam dunia bisnis. Hal ini ditandai dengan semakin banyak dan beraneka ragam produk dan jasa yang dapat ditawarkan produsen kepada konsumen. Dalam persaingan global saat ini sangatlah dibutuhkan peranan bisnis yang bermutu serta berkualitas. Menghadapi persaingan yang ketat di dunia bisnis diperlukan kejelian dalam melihat peluang dengan menawarkan berbagai kelebihan dan keunikan dari masing – masing produk dan jasa yang ditawarkan. Hal ini membuat para konsumen mempunyai banyak alternatif pilihan dalam menggunakan produk dan jasa yang ditawarkan oleh produsen. Tetapi bagi para produsen, ini merupakan
suatu bentuk ancaman yang memerlukan strategi khusus untuk dapat mempertahankan produk dan jasa yang ditawarkan serta meningkatkan minat beli konsumen karena semakin banyak produk dan jasa yang ditawarkan maka semakin ketat pula persaingan yang terjadi dalam dunia bisnis.
Dari pembahasan diatas dapat disimpulkan fakta yang ingin dibuat disini ialah manfaat metode Naive Bayes Classifier yaitu dapat memprediksi minat beli konsumen. Prediksi minat konsumen akan sangat penting bagi toko, dimana dengan adanya prediksi minat konsumen toko dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi konsumennya. Toko i – computer merupakan sebuah toko yang bergerak dibidang jual beli komputer baru atau bekas, toko i –
computer juga tidak hanya menjual komputer melainkan menjual pula sparepart
komputer, toko i – computer dirintis pada tahun tahun 2009.
Dinamika dalam dunia usaha yang semakin menantang, membuat para pengusaha harus dapat menjawab tantangan pasar dan memanfaatkan tantangan tersebut sebagai peluang untuk dapat bertahan dimasa yang akan datang. Dalam keadaan saat ini, pihak pengusaha harus lebih aktif dalam mendistribusikan dan memperkenalkan produknya agar dapat terjual sesuai dengan apa yang diharapkannya. Dan pastinya agar dapat mempertahankan pangsa pasarnya.
Sebagai salah satu toko yang bergerak di bidang jual beli komputer, pihak toko haruslah memikirkan strategi dalam pemasaran untuk mampu menghasilkan suatu informasi yang siap digunakan untuk strategi pemasaran. Untuk memenuhi kebutuhan – kebutuhan di atas, banyak cara yang dapat ditempuh. Salah satunya adalah dengan melakukan pemanfaatan database toko menggunakan teknik Data
4
Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling bebas.
1.2 Identifikasi Masalah
Berdasarkan latar belakang diatas, maka di dapat beberapa identifikasi masalah Sebagai berikut :
1. Proses analisa untuk memprediksi minat beli konsumen masih membutuhkan waktu yang cukup lama.
2. Belum diterapkan metode naive bayes dalam menganalisa dan memprediksi minat beli konsumen.
1.3 Rumusan Masalah
Dalam penyusunan penelitian ini, maka penulis memberikan rumusan masalah yang dijadikan acuan dasar dalam penyusunan penelitian yaitu:
1. Bagaimana mendapatkan hasil analisa untuk memprediksi minat beli konsumen dengan cepat dan akurat ?
2. Bagaimana menerapkan data mining menggunakan metode naive bayes untuk memprediksi minat beli konsumen ?
1.4 Batasan Masalah
Dari pemaparan latar belakang diatas dapat dijadikan landasan untuk menentukan batasan masalah dalam penelitian yang akan dilakukan. Adapun
batasan tersebut sebagai berikut :
1. Klasifikasi dibentuk berdasarkan data konsumen.
2. Atribut pembentuk klasifikasi yang digunakan adalah pendidikan, pekerjaan, penghasilan, tanggungan, dan harga.
1.5 Tujuan dan Manfaat 1.5.1 Tujuan
Berdasarkan masalah yang telah di rumuskan sebelumnya, maka tujuan penyusunan dari laporan ini adalah :
1. Menerapkan metode naive bayes untuk memprediksi minat beli konsumen terhadap komputer.
2. Dapat menganalisa dan memprediksi minat beli konsumen terhadap computer dengan cepat dan akurat..
1.5.2 Manfaat
Penelitian ini dilakukan dengan harapan dapat memberikan manfaat, diantaranya :
1. Bagi Penulis :
a. Hasil penelitian ini diharapkan dapat menambah pengetahuan dan wawasan mengenai data mining khususnya klasifikasi naive bayes. b. Menjadi referensi bagi peneliti berikutnya.
2. Bagi Pemilik Toko :
a. Diharapkan dapat membantu dan dapat dijadikan sebagai masukan – masukan untuk menarik minat pelanggan yang lebih baik lagi. b. Memahami metode naive bayes yang digunakan untuk memprediksi
6
3. Bagi Institusi :
a. Sebagai bahan referensi karya ilmiah khususnya dengan metode yang sama atau berbeda bagi penulis lainnya yang ingin mengkaji penelitian sejenis.
1.6 Sistematika Penulisan
Dalam penelitian ini penulis membagi beberapa bab untuk mempermudah dalam penyusunan dan mempermudah pembaca untuk memahaminya, berikut pembagian bab tersebut :
BAB I PENDAHULUAN
Bab ini meliputi uraian mengenai latar belakang masalah, identifikasi masalah, batasan masalah, rumusan masalah, tujuan dan manfaat penelitian, dan sistematika penulisan.
BAB II TINJAUAN PUSTAKA
Dalam bab ini menjelaskan tentang hal – hal yang berkaitan dengan teori konsep model data mining, teori yang berkaitan dengan penelitian, tempat penelitian dan konsep yang akan digunakan.
BAB III METODE PENELITIAN
Bab ini meliputi uraian mengenai objek penelitian, teknik pengumpulan data dan model data mining menggunakan metode naive bayes.
BAB IV HASIL DAN PEMBAHASAN
Bab ini penulis menguraikan masalah pokok dari objek penulisan penelitian, bagaimana menerapkan sebuah model data mining kedalam suatu sistem untuk memprediksi minat konsumen.
BAB V PENUTUP
Pada bab ini meliputi uraian mengenai kesimpulan dan koreksi beserta saran saran untuk peneliti yang akan melakukan penelitian berikutnya.
8
BAB II
TINJAUAN PUSTAKA
2.1 Kajian Pustaka
Dibawah ini adalah beberapa penelitian tentang data mining ataupun mendekati penelitian yang digunakan sebagai bahan referensi :
1. Penerapan Data Mining dengan Algoritma Naive Bayes Clasifier untuk
Mengetahui Minat Beli Pelanggan terhadap Kartu Internet XL (Studi Kasus di CV. Sumber Utama Telekomunikasi). Persaingan disuatu perusahaan membuat
para pelakunya harus selalu memikirkan strategi – strategi terobosan yang dapat menjamin kelangsungan bisnis mereka. Pada suatu perusahaan memiliki ketersediaan data yang melimpah. Ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan pengetahuan-pengetahuan baru, yang dapat membantu dalam pengaturan strategi dalam menjalankan bisinis. Prediksi minat konsumen akan sangat penting bagi perusahaan, dimana dengan adanya prediksi minat konsumen perusahaan dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi konsumennya. (Nofriansyah et al., 2016)
2. PENERAPAN DATA MINING DENGAN METODE INTERPOLASI UNTUK
MEMPREDIKSI MINAT KONSUMEN ASURANSI (Studi Kasus Asuransi Metlife). Dunia bisnis asuransi yang penuh persaingan membuat para
pelakunya harus selalu memikirkan strategi-strategi terobosan yang dapat menjamin kelangsungan bisnis asuransi mereka. Salah satu aset utama yang dimiliki oleh perusahaan asuransi adalah data bisnis dalam jumlah yang luar biasa banyak. Ini melahirkan kebutuhan akan adanya teknologi yang dapat
memanfaatkannya untuk membangkitkan pengetahuan-pengetahuan baru, yang dapat membantu dalam pengaturan strategi bisnis asuransi. Prediksi minat konsumen sangat penting bagi suatu perusahaan asuransi, dimana dengan adanya prediksi minat konsumen perusahaan asuransi dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi konsumennya. Teknologi
data mining hadir sebagai solusi. (Kurniawan & Hidayat, 2007)
3. PENERAPAN DATA MINING UNTUK MENGHITUNG RATA – RATA
MINAT KONSUMEN FASHION ( Rina Meilani Sitaba 2011 ). Dunia bisnis
retail yang penuh persaingan membuat para pelakunya harus selalu memikirkan strategi-strategi terobosan yang dapat menjamin kelangsungan bisnis retail mereka. Salah satu aset utama yang dimiliki oleh perusahaan retail adalah data bisnis customer dalam jumlah yang luar biasa banyak. Ini melahirkan kebutuhan akan adanya teknologi yang dapat memanfaatkannya untuk membangkitkan pengetahuan – pengetahuan baru, yang dapat membantu dalam pengaturan strategi bisnis retail ini. Prediksi minat konsumen sangat penting bagi suatu perusahaan retail, dimana dengan adanya prediksi minat konsumen perusahaan retail dapat mengambil suatu keputusan atau strategi yang benar dan tepat bagi konsumennya. Teknologi data mining hadir sebagai solusi. (Sitaba, 2011)
4. ANALISIS PENGARUH KUALITAS PRODUK, DAYA TARIK IKLAN, DAN
PERSEPSI HARGA TERHADAP MINAT BELI KONSUMEN PADA PRODUK PONSEL NOKIA (STUDI KASUS PADA MASYARAKAT DI KOTA SEMARANG). Jumlah penduduk Indonesia yang sangat besar menjadi pasar
10
– produk perusahaan tersebut. Perusahaan dalam negeri maupun perusahaan asing berusaha mendirikan usaha bisnis dan menciptakan jenis – jenis produk yang nantinya akan digemari oleh calon pelanggan. Banyaknya perusahaan ini menciptakan adanya suatu persaingan bisnis, perusahaan dapat menjadi pemenang dalam persaingan bisnisnya apabila perusahaan mampu menjaring pelanggan sebanyak – banyaknya. Jika perusahaan dapat menjaring pelanggan sebanyak – banyaknya tentu perusahaan tersebut dapat memperoleh keuntungan yang besar pula. (Bachriansyah, 2011)
Dari semua penelitian dan metode yang digunakan diatas terbukti bahwa
data mining bermanfaat untuk mengelola data yang tak terhitung jumlahnya dan
sangat efisien dalam penyelesaian karena tidak menghabiskan waktu yang cukup lama.
2.2 Dasar Teori 2.2.1 Data Mining
Data Mining merupakan bagaimana menjelaskan masa lalu dan
memprediksi masa depan dengan cara analisis data. Data mining adalah bidang disiplin ilmu yang menggabungkan statistik, pembelajaran mesin, kecerdasan buatan dan teknologi database. Menurut Ian H. Witten, Frank Eibe dan Mark A.
Hall dalam bukunya mengatakan bahwa data mining adalah melakukan ekstraksi
untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumnya tidak diketahui, dari suatu data. Sedangkan menurut Jiawei Han dan Micheline Kamber dalam bukunya mengatakan bahawa data mining adalah analisis dari pengamatan setdata (yang biasanya besar) untuk menemukan hubungan tak terduga dan untuk meringkas data dengan cara baru yang dapat dimengerti dan berguna bagi pemilik
data. Dan menurut Daniel T. Larose dalam bukunya mengatakan bahwa data
mining adalah suatu proses menemukan hubungan yang berarti, pola, dan
kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika. (Mandala, 2015)
Menurut Turban dalam bukunya yang berjudul ”Decision Support Systems
and Intelligent Systems”, data mining adalah suatu istilah yang digunakan untuk
menguraikan penemuan pengetahuan di dalam basis data. Data mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan
machine learning untuk mengekstraksi dan mengidentifikasi informasi yang
bermanfaat dan pengetahuan yang terkait dari berbagai basis data besar, data
mining adalah suatu proses menemukan hubungan yang berarti pola dan
kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistik dan matematika. (Wulanningrum & Swanjaya, 2017)
2.2.2 Pengelompokan Data Mining.
Menurut Larose dalam bukunya yang berjudul ”Discovering Knowledge in
Data: An Introduction to Data Mining”, data mining dibagi menjadi beberapa
kelompok berdasarkan tugas / pekerjaan yang dapat dilakukan, yaitu (Saragih & Reza, 2013) :
1. Deskripsi
Terkadang peneliti dan analisis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data. Deskripsi dari pola kecenderungan sering memberikan kemungkinan
12
penjelasan untuk suatu pola atau kecenderungan. 2. Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel target estimasi lebih ke arah numerik dari pada ke arah kategori. Model dibangun menggunakan baris data (record) lengkap yang menyediakan nilai dari variabel target sebagai nilai prediksi. Selanjutnya, pada peninjauan berikutnya estimasi nilai dari variabel target dibuat berdasarkan nilai variabel prediksi.
3. Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada di masa mendatang. Beberapa metode dan teknik yang digunakan dalam klasifikasi dan estimasi dapat pula digunakan (untuk keadaan yang tepat) untuk prediksi.
4. Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, pendapatan sedang, dan pendapatan rendah.
5. Pengklasteran (Clusterring)
Pengklasteran merupakan pengelompokan record pengamatan, atau memperhatikan dan membentuk kelas obyek – obyek yang memiliki kemiripan. Klaster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan record dalam klaster yang lain. Berbeda dengan klasifikasi, pada pengklasteran tidak ada variabel target. Pengklasteran tidak melakukan klasifikasi, mengestimasi, atau
memprediksi nilai dari variabel target, akan tetapi, algoritma pengklasteran mencoba untuk melakukan pembagian terhadap keseluruhan data menjadi kelompok – kelompok yang memiliki kemiripan (homogen), yang mana kemiripan record dalam satu kelompok akan bernilai maksimal, sedangkan kemiripan dengan record dalam kelompok lain akan bernilai minimal. 6. Asosiasi
Tugas asosiasi dalam data mining adalah untuk menemukan atribut yang muncul dalam satu waktu.
2.2.3 Tahap – Tahap Data Mining
Data mining merupakan proses yang menggunakan teknik statistik,
matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidenfikasi informasi yang bermanfaat dan pengetahuan yang terakit dari berbagai database besar/Data Warehouse. Keluaran dari data mining bisa dipakai untuk memperbaiki pengambilan keputusan dimasa depan. Berdasarkan defenisi – defenisi yang telah disampaikan, hal penting yang terkait dengan Data Mining adalah:
1. Data mining merupakan suatu proses otomatis terhadap data yang sudah ada.
2. Data yang akan diproses berupa data yang sangat besar.
3. Tujuan data mining adalah mendapatkan hubungan atau pola yang akan mungkin memberikan indikasi yang bermanfaat.
Data mining bukanlah suatu bidang yang sama sekali baru. Dalam
aplikasinya, data mining sebenarnya merupakan bagian dari proses Knowledge
14
sendiri. Proses KDD secara garis besar dapat dijelaskan seperti pada Gambar dibawah ini :
Gambar 2. 1 Tahap - Tahap Data Mining
Sumber : Mujib Ridwan, Hadi Suyono, dan M. Sarosa ( 2013 : 7 )
Adapun penjelasan pada tahapan data mining sebagai berikut (Sutrisno, Afriyudi, & Widiyanto, 2013):
a. Data cleaning
Untuk menghilangkan data noise (data yang tidak relevan / berhubungan langsung dengan tujuan akhir proses data mining, misal : data mining yang bertujuan untuk menganalisa hasil penjualan, maka data – data dalam kumpulan seperti ”nama pegawai”, ”umur”, dan sebagainya dapat diignore) dan tidak konsisten.
b. Data integration
dalam satu database baru untuk menggabungkan multiple data source. c. Data selection
Untuk mengambil sebuah data yang sesuai untuk keperluan analisa. d. Data transformation
Untuk mentransformasikan data ke dalam bentuk yang lebih sesuai untuk di
mining. Data mining Proses terpenting dimana metode tertentu diterapkan
untuk menghasilkan data pattern. e. Pattern evaluation
Untuk mengidentifikasi apakah benar interenting patterns yang didapatkan sudah cukup mewakili knowledge berdasarkan perhitungan tertentu.
f. Knowledge presentation
Untuk mempresentasikan knowledge yang sudah didapat dari user.
2.2.4 Metodelogi Data Mining
CRISP-DM (Cross Industry Standard Process Model for Data Mining) adalah data mining methology yang pada awalnya dikembangkan oleh tiga perusahaan, yakni SPSS ( ISL by then ), NCR, dan Daimler Chrysler pada tahun 1996 dan baru pada bulan Agustus 2000, version 1.0 CRISP-DM dipublikasikan. Kemudian tahun 2009 CRISP-DM dikenal dengan SEMMA (sample, explore,
modify, model dan assess) yang dikembangkan oleh SAS Institute, dan CRISP-DM
merupakan metodelogi data mining yang paling banyak digunakan (Elkan, C.2014,
Predictive Analystics and Data Mining, p.17). CRISP-DM merupakan metodelogi
yang dikhususkan pada pengembangan data mining, yang terdiri dari enam fase seperti pada Gambar berikut.
16
Gambar 2. 2 Fase CRISP-DM
Sumber : Yuda Septian Nugroho
Setiap fase dalam CRISP-DM terdiri dari beberapa proses tahapan di dalamnya, berikut penjelasan setiap fase, enam fase CRISP-DM (Cross Industry Standard
Process for Data Mining) yaitu (Pauziah, 2017):
7. Fase Pemahaman Data (Data Understanding Phase), yaitu: ➢ Mengumpulkan data.
➢ Menggunakan analisis penyelidikan data untuk mengenali lebih lanjut data dan pencarian pengetahuan awal.
➢ Mengevaluasi kualitas data.
➢ Jika diinginkan, pilih sebagian kecil kelompok data yang mungkin mengandung pola dari permasalahan.
8. Fase Pengolahan Data (Data Preparation Phase), yaitu:
➢ Siapkan dari data awal, kumpulan data yang akan digunakan untuk keseluruhan fase berikutnya. Fase ini merupakan pekerjaan berat yang perlu dilaksanakan secara intensif.
➢ Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai analisis yang akan dilakukan.
➢ Lakukan perubahan pada beberapa variabel jika dibutuhkan. ➢ Siapkan data awal sehingga siap untuk perangkat pemodelan. 9. Fase Pemodelan (Modeling Phase).
➢ Pilih dan aplikasikan teknik pemodelan yang sesuai. ➢ Kalibrasi aturan model untuk mengoptimalkan hasil.
➢ Perlu diperhatikan bahwa beberapa teknik mungkin untuk digunakan pada permasalahan data mining yang sama.
➢ Jika diperlukan, proses dapat kembali ke fase pengolahan data untuk menjadikan data ke dalam bentuk yang sesuai dengan spesifikasi kebutuhan teknik data mining tertentu.
10. Fase Evaluasi (Evaluation Phase), yaitu:
➢ Mengevaluasi satu atau lebih model yang digunakan dalam fase pemodelan untuk mendapatkan kualitas dan efektivitas sebelum disebarkan untuk digunakan.
18
fase awal.
➢ Menentukan apakah terdapat permasalahan penting dari bisnis atau penelitian yang tidak tertangani dengan baik.
➢ Mengambil keputusan berkaitan dengan penggunaan hasil dari data
mining.
11. Fase Penyebaran (Deployment Phase)
➢ Menggunakan model yang dihasilkan. Terbentuknya model tidak menandakan telah terselesaikannya proyek.
➢ Contoh sederhana penyebaran: Pembuatan laporan.
➢ Contoh kompleks Penyebaran: Penerapan proses data mining secara paralel pada departemen lain.
2.2.5 Naive Bayes
Naive Bayes merupakan salah satu algoritma dalam teknik data mining yang
menerapkan teori Bayes dalam klasifikasi. Teorema keputusan Bayes adalah pendekatan statistik yang fundamental dalam pengenalan pola (pattern
recoginition). Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai
atribut secara konditional saling bebas jika diberikan nilai output. Dengan kata lain diberikan nilai output, probabilitas mengamati secara bersama adalah produk dari probabilitas individu (Ridwan et al., 2013) .
Naive Bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut
secara konditional saling bebas jika diberikan nilai output. Atau, dengan kata lain, diberikan nilai output, prodabilitas mengamati secara bersama adalah produk dari probabilitas individu (Wulanningrum & Swanjaya, 2017).
Teorema Bayes merupakan teknik prediksi berbasis probabilistik sederhana yang berdasar pada penerapan Teorema Bayes (atau aturan bayes) dengan asumsi independensi (ketidaktergantungan) yang kuat (naif). Dalam Bayes (terutama Naive
Bayes), maksud independensi yang kuat pada fitur adalah bahwa sebuah fitur pada
sebuah data tidak berkaitan dengan ada atau tidak fitur lain dalam data yang sama (Wulanningrum & Swanjaya, 2017).
Naive Bayes merupakan sebuah pengklasifikasian probabilistik sederhana
yang menghitung sekumpulan probabilitas dengan menjumlahkan frekuensi dan kombinasi nilai dari dataset yang diberikan. Algoritma mengunakan teorema bayes dan mengasumsikan semua atribut independen atau tidak saling ketergantungan yang diberikan oleh nilai pada variabel kelas. Naive bayes didasarkan pada asumsi penyederhanaan bahwa nilai atribut secara kondisional saling bebas jika diberikan nilai output. Dengan kata lain, probabilitas mengamati secara bersama produk dari probabilitas individu. Keuntungan penggunaan Naive bayes adalah bahwa metode ini hanya membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi paremeter yang diperlukan dalam proses pengklasifikasian.
Naive Bayes sering bekerja jauh lebih baik dalam kebanyakan situasi dunia nyata
yang kompleks dari pada yang diharapkan (Munandar & Astuti, 2015). Tahapan dari proses algoritma naive bayes adalah:
1. Menghitung jumlah kelas / label. 2. Menghitung Jumlah Kasus Per Kelas. 3. Kalikan Semua Variabel Kelas. 4. Bandingkan Hasil Per Kelas.
20
2.2.6 Minat Beli
2.2.6.1 Definisi Minta Beli
Minat beli merupakan aktivitas psikis yang timbul karena adanya perasaan (afekti) dan pikiran (kognitif) terhadap suatu barang atau jasa yang diinginkan. Minat beli sebagai kekuatan pendorong atau sebagai motif yang bersifat instristik yang mampu mendorong seseorang untuk menaruh perhatian secara spontan, wajar, mudah, tanpa paksaan dan selektif pada satu produk untuk kemudian mengambil keputusan membeli. Hal ini dimungkinkan oleh adanya kesesuaian dengan kepentingan individu yang bersangkutan serta memberi kesenangan, kepuasan pada dirinya. Jadi sangatlah jelas bahwa minat beli diartikan sebagai suatu sikap menyukai yang ditujukan dengan kecenderungan untuk selalu membeli yang disesuaikan dengan kesenangan dan kepentingannya.
Menurut Thomas dalam Fitri Yeni (2010 : 34) minat beli yaitu tahapan kecenderungan responden untuk bertidak sebelum keputusan membeli benar – benar dilaksanakan. Nugroho (2013 : 342) menjelaskan minat beli adalah proses pengintegrasian yang mengombinasikan pengetahuan untuk mengevaluasi dua atau lebih prilaku alternatif dan memilih salah satu diantaranya. Hasil dari proses pengintegrasian ini ialah suatu pilihan (choice), yang disajikan secara kognitif sebagai keinginan berperilaku. Dari kedua pendapat para ahli diatas dapat disimpulkan bahwa minat beli konsumen adalah kecendrungan responden untuk bertindak sebelum keputusan membeli suatu barang (Helmi, 2015).
2.2.7 Konsumen
2.2.7.1 Pengertian Konsumen
Istilah konsumen sering diartikan sebagai dua jenis konsumen, yaitu konsumen individu dan konsumen organisasi. Konsumen individu membeli barang dan jasa untuk digunakan sendiri. Misalnya membeli pakaian, sepatu, dan sabun. Konsumen individu membeli barang dan jasa yang akan digunakan oleh anggota keluarga yang lain, misalnya susu formula untuk bayi, atau digunakan oleh seluruh anggota keluarga, misalnya TV, furnitur, rumah, dan mobil. Konsumen individu mungkin juga membeli barang dan jasa untuk hadiah teman, saudara atau orang lain. Dalam konteks barang dan jasa yang dibeli kemudian digunakan langsung oleh individu sering disebut sebagai “pemakai akhir” atau “konsumen akhir”.
Jenis kedua adalah konsumen organisasi, yang meliputi organisasi bisnis, yayasan, lembaga sosial, kantor pemerintah, dan lembaga lainnya (sekolah, perguruan tinggi, rumah sakit). Semua jenis organisasi ini harus membeli produk peralatan dan jasa-jasa lainnya untuk menjalankan seluruh kegiatan organisasinya. Pabrik mi instan misalnya harus membeli bahan baku seperti tepung terigu, bumbu-bumbu, dan bahan baku lainnya untuk membuat dan menjual produk mi instannya. Demikian juga perusahaan jasa seperti perusahaan asuransi harus membeli alat tulis, komputer, dan kendaraan untuk bisa menghasilkan jasa yang akan dijualnya. Konsumen individu dan konsumen organisasi adalah sama pentingnya. Mereka memberikan sumbangan yang sangat penting bagi perkembangan dan pertumbuhan ekonomi, tanpa konsumen individu, produk dan jasa yang dihasilkan perusahaan tidak mungkin bisa laku terjual. Secara langsung konsumen individu mempengaruhi kemajuan dan kemunduran perusahaan. Produk sebaik apapun tidak
22
akan ada artinya bagi perusahaan jika ia tidak dibeli oleh konsumen individu. Konsumen individu merupakan tulang punggung perekonomian nasional, sebagian besar pabrik dan perusahaan serta sektor pertanian menghasilkan produk dan jasa untuk digunakan oleh konsumen akhir (Sumarwan, n.d.).
2.3 Objek Penelitian 2.3.1 Sejarah Toko
i – computer merupakan sebuah toko yang bergerak dibidang jual beli komputer bekas atau baru yang berada di wilayah Kecamatan Anjatan Indramayu. Toko i – computer berdiri pada tahun 2009 awal pembukaan toko i – computer hanya membuka percetakn saja namun pada pertengahan 2010 mulai berbisnis dengan jual beli komputer dan laptop bekas atau baru.
23
BAB III
METODE PENELITIAN
3.1 Jenis Penelitian
Penelitian ini bersifat deskriptif dimana penelitian ini memusatkan perhatian terhadap masalah – masalah yang ada pada saat penelitian dilakukan atau masalah – masalah yang bersifat actual dan menggambarkan tentang masalah fakta – fakta yang diselidiki sebagaimana adanya yang disertai dengan interprestasi dari fakta – fakta tersebut.
3.2 Tempat dan Waktu Penelitian 3.2.1 Tempat
Tempat penelitian di toko i – computer yang berada di wilayah Kecamatan Anjatan Indramayu.
3.2.2 Waktu Penelitian
Adapun waktu yang digunakan untuk penelitian ini dimulai selama 3 bulan terhitung 9 Agustus sampai 23 Oktober 2018.
Tabel 3. 1 Tabel Waktu Penelitian
No Kegiatan
Waktu Penelitian 2018
Agustus September Oktober 1 2 3 4 1 2 3 4 1 2 3 4 1 Tahap Persiapan Penelitian
a.Identifikasi Masalah,Tujuan Penelitian
24
b. Penyusunan dan Pengajuan Judul c. Pengajuan Proposal d. Perijinan Penelitian 2 Tahap Pelaksanaan a. Pengumpulan Data b. Pengolahan Data c. Analisis Data
3 Tahap Penyusunan Laporan
3.3 Populasi dan Sample Penelitian 3.3.1 Populasi
Populasi penelitian adalah semua objek atau individu yang memiliki karakteristik tertentu, jelas dan lengkap yang akan diteliti, menyatakan bahwa populasi adalah wilayah generalisasi yang terdiri atas: obyek/subyek yang mempunyai kualitas dan karakteristik tertentu yang ditetapkan oleh peneliti untuk dipelajari dan kemudian ditarik kesimpulannya. Populasi dari penelitian ini adalah seluruh konsumen yang membeli komputer di i – computer yang berjumlah 329 orang.
3.3.2 Sampel Penelitian
Sampel adalah bagian dari jumlah dan karakteristik yang dimiliki oleh populasi,Metode penarikan sampel / pengambilan sampel yang digunakan dalam penelitian ini adalah insidental sampling dimana peneliti memberikan kesempatan
yang sama atau secara kebetulan pada anggota populasi untuk dijadikan anggota sampel.Sampel adalah bagian dari populasi yang ditemukan dengan teknik sampling. Sampel dalam penelitian ini diperoleh sebanyak 329 orang.
3.4 Tahapan Penelitian
Pada penelitian ini, tahapan yang akan digunakan untuk melakukan klasifikasi terhadap minat beli konsumen. berikut ini beberapa langkah dalam tahapan yang dilakukan.
Gambar 3. 1 Metode Penelitian
Pada tahap ini menjelaskan tentang bagaimana dan dari mana sumber data didapatkan, berikut penjelasannya :
1. Pengumpulan Data
Pada tahap ini menjelaskan tentang bangaimana dan dari mana sumber data didapatkan.
Pengumpulan Data
Pengolahan Data Awal
Penentuan Metode
26
2. Pengolahan Data Awal
Pada tahap ini menjelaskan tentang tahap awal data mining. Data yang telah didapatkan akan diolah ke format yang dibutuhkan, pengelompokkan dan penentuan atribut data.
3. Penentuan Metode
Pada tahap ini menjelaskan tentang metode yang dipilih dan akan digunakan pada penelitian ini yaitu metode Algoritma Naïve Bayes.
4. Evaluasi & Validasi Hasil
Pada tahap ini menjelaskan tentang pengujian, hasil pengujian yang akan divalidasi dan kemudian dievaluasi. Penjelasan mengenai tahap ini akan dipaparkan pada bab berikutnya.
3.5 Metode Pengumpulan Data
Untuk mendapatkan data dan informasi yang diperlukan, penulis menggunakan metode deskriptif, yaitu dengan cara mengumpulkan data dan informasi di i – computer Anjatan. Penulis mengadakan penelitian dengan cara sebagai berikut :
1. Observasi
Observasi dilakukan dengan melakukan pengamatan langsung pada toko i – computer yang berada di wilayah Kecamatan Anjatan Indramayu.
2. Wawancara
Metode pengumpulan data yang dilakukan melalui tanya jawab yang diajukan secara langsung kepada narasumber untuk mendapatkan data atau informasi yang berkaitan dengan objek penelitian.
3. Studi Kasus
Penulis melakukan studi kepustakaan melalui literatur – literatur atau referensi – referensi yang ada di perpustakaan dan internet.
3.6 Rancangan Penelitian
Rancangan dalam penelitian dibuat agar langkah – langkah dalam penelitian tidak keluar dari pokok pembahasan dan mudah dipahami, urutan langkah – langkah dibuat secara sistematis sehingga dapat dijadikan pedoman yang jelas dan mudah untuk menyelesaikan permasalahan yang ada.
Gambar 3. 2 Rancangan Penelitian Proses analisa untuk memprediksi
minat konsumen belum menerapkan metode naive bayes sehingga
memerlukan waktu lama
Masalah
Penerapan data mining dengan metode naive bayes
Tindakan
Data Metode Data Konsumen Naive BayesPenelitia
n
Dapat menganalisa dan memprediksi minat konsumen dengan cepat dan akurat
28
3.7 Veriable Penelitian
Variabel penelitian yang akan digunakan sebagai atribut data untuk proses
data mining klasifikasi ialah pendidikan, pekerjaan, penghasilan, tanggungan dan
harga. Kelas keputusan ialah variabel target penelitian yang berisi 2 nilai kelas, yaitu “ BELI “ dan “ TIDAK ”
Tabel 3. 2 Atribut Data Yang Digunakan
No Atribut Keterangan
1 Pendidikan SD, SMP, SMA, S1 Keatas 2 Pekerjaan Wiraswasta, Karyawan, PNS 3 Penghasilan < 2juta, 3-5 Juta, > 5 Juta
4 Tanggungan 0 Orang, 1-2 Orang, 3-5 Orang, Lebih dari 5orang
5 Harga Mahal, Murah
3.8 Metode Analisis Data
Metode analisis data menggunakan Naïve Bayes Classifier (NBC) yang merupakan sebuah pengklasifikasi probabilitas sederhana yang mengaplikasikan
Teorema Bayes dengan asumsi ketidaktergantungan (independen) yang tinggi.
Keuntungan penggunaan NBC bahwa metode ini hanya membutuhkan jumlah data pelatihan (training data) yang kecil untuk menentukan estimasi parameter yang diperlukan dalam proses pengklasifikasian. Karena yang diasumsikan sebagai variabel independen, maka hanya varian dari suatu variabel dalam sebuah kelas yang dibutuhkan untuk menentukan klasifikasi, bukan keseluruhan dari matriks kovarians.
3.8.1 Persamaan Metode Naive Bayes
Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari
sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya. Bentuk umum atau persamaan dari teorema Bayes adalah :
𝑃(𝐻|𝑋) =
𝑃(𝑋|𝐻). 𝑃(𝐻)
𝑃(𝑋)
Keterangan :X : Sampel data yang memiliki kelas (label) yang tidak diketahui H : Hipotesa bahwa X adalah data kelas (label)
P(H|X) : Probabilitas hipotesis H berdasar kondisi X (posteriori probability) P(H) : Peluang dari hipotesa H
P(X|H) : Peluang dari data sampel X bila diasumsikan bahwa hipotesa benar P(X) : Peluang dari data sampel yang diamati
Untuk menjelaskan metode Naive Bayes, perlu diketahui bahwa proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sample yang dianalisis tersebut. Karena itu, metode Naive Bayes di atas disesuaikan sebagai berikut:
(𝐶|𝐹1…𝐹𝑛) = 𝑃(𝐶)𝑃(𝐹1…𝐹𝑛|𝐶) 𝑃(𝐹1…𝐹𝑛)
Di mana Variabel C merepresentasikan kelas, sementara variabel “F1 ... Fn” merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C
30
(sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik – karakteristik sampel pada kelas C (disebut juga
likelihood), dibagi dengan peluang kemunculan karakteristik – karakteristik sampel
secara global (disebut juga evidence). rumus di atas dapat pula ditulis secara sederhana sebagai berikut:
Posterior =
𝑝𝑟𝑖𝑜𝑟 𝑥 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒
Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari
posterior tersebut nantinya akan dibandingkan dengan nilai – nilai posterior kelas
lainnya untuk menentukan ke kelas apa suatu sample akan diklasifikasikan. Penjabaran lebih lanjut rumus Naïve Bayes tersebut dilakukan dengan menjabarkan (𝐶|𝐹1,…,) menggunakan aturan perkalian sebagai berikut :
(𝐶|𝐹1,…,=𝑃(𝐶)𝑃(𝐹1,…,𝐹𝑛|𝐶) =(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2,…,𝐹𝑛|𝐶,𝐹1)
=𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶,𝐹1 )𝑃(𝐹3,…,𝐹𝑛|𝐶,𝐹1,𝐹2
=(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶,𝐹1 )𝑃(𝐹3|𝐶,𝐹1,𝐹2)𝑃(𝐹4,…,𝐹𝑛|𝐶,𝐹1,𝐹2,𝐹3) =𝑃(𝐶)𝑃(𝐹1|𝐶)𝑃(𝐹2|𝐶,𝐹1)𝑃(𝐹3|𝐶,𝐹1,𝐹2)…𝑃(𝐹𝑛|𝐶,𝐹1,𝐹2,𝐹3,…,𝐹𝑛−1)
Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya fakto – faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Di sinilah digunakan asumsi independensi yang sangat tinggi (naif), bahwa masing-masing petunjuk
(F1,F2...Fn) saling bebas (independen) satu sama lain. Dengan asumsi tersebut, maka berlaku suatu kesamaan sebagai berikut:
𝑃(𝐹𝑖|𝐹 𝑗) = (𝐹𝑖 ∩ 𝐹𝑗) 𝑃(𝐹𝑗)
=
𝑃(𝐹𝑖) 𝑃(𝐹𝑗) 𝑃(𝐹𝑗)=
𝑃(𝐹𝑖) untuk I ≠ j, sehingga: 𝑃(𝐹𝑖 | 𝐶, 𝐹𝑗) = 𝑃(𝐹𝑖|𝐶)Dari persamaan di atas dapat disimpulkan bahwa asumsi independensi naive tersebut membuat syarat peluang menjadi sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(F1,…,Fn | C) dapat disederhanakan seperti berikut:
P(F1 … Fn | C) = P(F1 | C) P(F2 | C) … P(Fn | C) P(F1 … Fn | C) =
∏
𝑛𝑖=1𝑃 ( 𝐹𝑖 | 𝐶)Dengan kesamaan di atas, persamaan teorema bayes dapat dituliskan sebagai berikut: P(F1 … Fn | C) = 1 𝑃(𝐹1,𝐹2,… ,𝐹𝑛)
∏
𝑃 ( 𝐹𝑖 | 𝐶) 𝑛 𝑖=1 P(F1 … Fn | C) =𝑃(𝐶) 𝑍∏
𝑃 ( 𝐹𝑖 | 𝐶) 𝑛 𝑖=1Persamaan di atas merupakan model dari teorema Naïve Bayes yang selanjutnya akan digunakan dalam proses klasifikasi dokumen data.
3.8.2 Alur Metode Naive Bayes
32
Gambar 3. 3 Alur Metode Naive Bayes
Adapun keterangan dari gambar di atas sebagai berikut (Saleh, 2015)
1. Baca Data Training
2. Hitung jumlah dan probabilitas, namun apabila data numerik maka : a. Cari nilai mean dan standar deviasi dari masing masing parameter yang
merupakan data numerik. Persamaan yang digunakan untuk menghitung nilai rata – rata hitung (mean) dapat dilihat sebagai berikut :
Apakah Data Numerik? Baca Data Training
Mean Tiap Parameter
Standar Deviasi Tiap Parameter
Tabel Mean dan Standar Deviasi Jumlah dan Probabilitas Tabel Probabilitas Solusi Tidak Ya Stop Start
µ
=
∑𝑛1=1𝑥𝑖 𝑛 atauµ =
𝑥1+ 𝑥2 + 𝑥3+ ... + 𝑥𝑛 𝑛 dimana:µ: Rata-rata hitung (mean) x_i: Nilai sampel ke-i
n: Jumlah sample
Dan persamaan untuk menghitung nilai simpangan baku (standar deviasi) dapat dilihat sebagai berikut:
σ
=
√
∑𝑛1=1(𝑥𝑖−µ) 2 𝑛−1 dimana:σ: Standar deviasi x_i: Nilai x ke-i
µ: Rata-rata hitung n: Jumlah sampel
b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut.
3. Mendapatkan nilai dalam tabel mean, standard deviasi dan probabilitas. 4. Solusi kemudian dihasilkan.
34
3.9 Evaluasi (Evaluation)
Melakukan pengecekan terhadap setiap nilai atribut dan model yang sudah dibangun, kemudian melakukan evaluasi terhadap hasil dengan melakukan analisis
data mining. pada tahap ini juga merupakan tahapan dimana dilakukan perbaikan
kembali bila terjadi kekurangan. pada tahapan ini bisa saja kembali lagi ke tahap yang pertama dan kemudian ke tahap berikutnya dengan tujuan perbaikan, sampai sesuai dengan kebutuhan.
3.10 Tahap Penelitian
Pada penelitian ini, tahapan penelitian yang dilakukan adalah seperti pada Gambar 3.3 penelitian ini secara garis besar meliputi beberapa kegiatan inti yaitu pembuatan proposal, pengumpulan data, pengolahan data, implementasi NBC, pengujian, dan analisis hasil. Pada tahap pengolahan ada beberapa kegiatan sesuai dengan tahapan yang ada pada data mining, yaitu pembersihan data, integrasi data, seleksi data, transformasi data, dan pembentukan dataset yang dalam penelitian akan digunakan sebagai data training dan data testing, dibawah merupakan tahapan penelitian menurut (Ridwan, Suyono, & Sarosa, 2013).
Gambar 3. 4 Tahap Penelitian
Sumber : Mujib Ridwan, Hadi Suyono, dan M. Sarosa ( 2013 : 7 ) 3.11 Instrument Penelitian
Berdasarkan permasalahan yang telah diuraikan sebelumnya, maka bahan dan peralatan yang diperlukan untuk penelitian ini meliputi :
3.11.1 Bahan
Dalam penelitian ini bahan yang dibutuhkan adalah data sekunder berupa data konsumen yang membeli komputer di i – computer untuk digunakan sebagai instrumentasi guna memperoleh data untuk memprediksi minat beli konsumen.
Seleksi Data Identifikasi Masalah Pengumpulan Data Pembersihan Data Integrasi Data Penetapan Tujuan Kajian Literatur Transformasi Data Data tervaliadasi Pengujian dan Evaluasi NBC Dataset Analisis Hasil Pra Penelitian Mulai Selesai Kesimpulan
36
3.11.2 Peralatan
Peralatan dalam penelitian ini meliputi kebutuhan perangkat lunak dan kebutuhan perangkat keras. Dibawah ini merupakan peralatan atau tools yang dibutuhkan, diantaranya :
1. Microsoft Office Word 2013
Software ini digunakan untuk mengolah laporan hasil penelitian.
2. Microsoft Office Excel 2013
Software ini digunakan sebagai media penulisan dan pengolahan dataset, data training dan data testing.
3. Sistem operasi Microsoft Windows 10 Sistem Operasi yang digunakan penulis. 4. RapidMiner Studio 7.6
Tools yang akan digunakan untuk mengolah data, penerapan algoritma naive bayes dan mengetahui akurasi dari algoritma yang digunakan terhadap
37
BAB IV
HASIL DAN PEMBAHASAN
4.1 Penentuan Kriteria
Dalam menganalisa untuk mengetahui minat beli konsumen ada beberapa kriteria yang digunakan di toko i – computer adalah sebagai berikut :
Tabel 4. 1 Kriteria Yang Di Gunakan
No Atribut Keterangan
1 Pendidikan SD, SMP, SMA, S1 Keatas 2 Pekerjaan Wiraswasta, Karyawan, PNS 3 Penghasilan < 2juta, 3-5 Juta, > 5 Juta
4 Tanggungan 0 Orang, 1-2 Orang, 3-5 Orang, Lebih dari 5orang
5 Harga Mahal, Murah
4.2 Perhitungan Naïve Bayes
Dataset yang digunakan sebagai data training adalah sebanyak 329 data (lampiran1) yang diambil dari data konsumen yang sudah ditentukan. Sedangkan untuk data testing yang akan ditentukan kelayakannya berjumlah 51 data ( lampiran2 ).
4.2.1 Menghitung Probabilitas Kelas
Tahap pertama perhitungan untuk menentukan minat beli konsumen dengan metode Naïve Bayes adalah dengan mencari probabilitas dari masing – masing kelas. Dalam minat beli akan ditentukan 2 kelas yaitu kelas “Minat” dan “Tidak”. Cara perhitungannya adalah dengan mencari berapa jumlah data yang minat dan
38
tidak dari total keseluruhan data training, lalu membaginya dengan total keseluruhan data. Hasil dari perhitungan tersebut dapat dilihat pada tabel berikut : Tabel 4. 2 Probabilitas Kelas
Kelas Keputusan
Beli Tidak
299/329 30/329
4.2.2 Menghitung Probabilitas Masing – Masing Atribut
Cara mencari probabilitas suatu atribut adalah dengan membandingkan atribut dari data testing dengan atribut dari data training. Berapa jumlah atribut dengan kelas ”Beli” yang berada pada data training, kemudian bagi dengan probabilitas kelas “Beli”. Begitu juga dengan mencari probabilitas untuk kelas “Tidak”.
1. Pendidikan
Tabel 4. 3 Atribut Pendidikan
Pendidikan SD SMP SMA S1 Keatas
Beli 3/299 113/299 15/299 168/299
Tidak 4/30 16/30 7/30 3/30
2. Pekerjaan
Tabel 4. 4 Atribut Pekerjaan
Pekerjaan Wiraswasta Karyawan PNS
Beli 115/299 115/299 69/299
3. Penghasilan
Tabel 4. 5 Atribut Penghasilan
Penghasilan Kurang dari 2 Juta 3-5 Juta Lebih dari 5 Juta
Beli 53/299 143/299 103/299
Tidak 9/30 20/30 1/30
4. Tanggungan Tabel 4. 6 Tanggungan
Tanggungan 0 Orang 1-2 Orang 3-5 Orang Lebih dari 5
orang
Beli 153/299 78/299 63/299 5/299
Tidak 21/30 5/30 1/30 3/30
5. Harga
Tabel 4. 7 Atribut Harga
Harga Murah Mahal
Beli 231/299 68/299
Tidak 12/30 18/30
4.2.3 Menghitung Probabilitas Akhir Untuk Setiap Kelas
Untuk menghitung probabilitas akhir pada setiap kelas, perlu menggunakan
data training yang terdapat pada tabel 4.1 dan mengubahnya menjadi nilai yang
sudah ditentukan pada proses 4.2.2 sesuai dengan atribut masing – masing. Lalu dari masing – masing atribut dan nilai probabilitas kelas dikalikan. Dari kedua hasil yang sudah ditentukan pada tiap kelas, bandingkan nilai yang paling tinggi. Jika kelas “Beli” bernilai paling tinggi maka hasilnya “Beli”, begitu pula sebaliknya.
40
4.2.4 Kasus Perhitungan Naïve Bayes
Untuk memudahkan dalam pemahaman perhitungan Naïve Bayes, secara manual akan dibuat studi kasus sebagai berikut dengan rulenya berupa data training pada (lampiran 1) :
Tabel 4. 8 Kasus Perhitungan Naive Bayes
Pendidikan Pekerjaan Penghasilan Tanggungan Harga Keputusan
SMA Wiraswasta < 2 juta 3-5 Orang Murah ?
Data testing: X = (Pendidikan=”SMA”, Pekerjaan=”Wiraswasta”, Penghasilan=”< 2 juta”, Tanggungan=”3-5 Orang”, Harga=”Murah”)
P(Ci)
P( Beli )=299/329 = 0,9088
Jumlah data "Beli" pada kolom "Hasil" di bagi jumlah data P(Tidak)= 30/329= 0,0911
Jumlah data "Tidak" pada kolom "Hasil" di bagi jumlah data
P(X | Ci)
P (Pendidikan = SMA | Beli) = 15/299 = 0,0502 P (Pendidikan = SMA | Tidak) = 7/30 = 0,2333 P (Pekerjaan = Wiraswasta | Beli) = 115/299 = 0,3846 P ( Pekerjaan = Wiraswasta | Tidak) = 11/30 = 0,3667 P ( Penghasilan = Kurang dari 2 Juta | Beli) = 53/299 = 0,1773
P ( Penghasilan = Kurang dari 2 Juta | Tidak) = 9/30 = 0,3000 P ( Tanggungan = 3-5 Orang | Beli) = 63/299 = 0,2107 P ( Tanggungan = 3-5 Orang | Tidak) = 1/30 = 0,0333 P ( Harga = Murah | Beli) = 231/299 = 0,7726 P ( Harga = Murah | Tidak) = 12/30 = 0,4000
P ( X | Beli = 0,0502 * 0,3846 * 0,1773 * 0,2107 * 0,7726
P ( X | Tidak = 0,000557
P ( X | Tidak = 0,2333 * 0,3667 * 0,3000 * 0,0333 * 0,4000
P ( X | Tidak = 0,000342
Jadi untuk Pendidikan =”SMA”, Pekerjaan=”Wiraswasta”, Penghasilan=”Kurang dari 2 juta”, Tanggungan=”3-5 Orang”,Harga=”Murah”,hasilnya “Beli”.
P(X | Ci) * P(Ci)
P(X | Beli) * P(Beli) = 0,000557 * 0,908815
P(X | Tidak)) = 0,000506
P(X | Tidak) * P(Tidak) = 0,000342 * 0,091185
P(X | Tidak) = 0,000031
4.3 Implementasi Klasifikasi Naïve Bayes pada Rapid Miner
Uji coba dilakukan untuk mengetahui apakah perhitungan yang telah dilakukan diatas sesuai untuk mengetahui minat beli konsumen dengan metode
Naïve Bayes. Uji coba dilakukan dengan menentukan 51 data testing yang telah
42
menggunakan Rapidminer 7.6. Berikut adalah uji coba yang dilakukan pada 80 data
testing yang sudah ditentukan. Data testing tersebut akan dicari nilai prediksinya
apakah sesuai dengan perhitungan naive bayes.
Gambar 4. 2 Hasil Prediksi Rapid Miner
Dari keterangan gambar 4.2 hasil testing data yang dilakukan dengan menggunakan Rapid Miner mengahasilkan prediksi yang sama dengan kasus perhitungan manual yaitu “Beli”.
4.3.1 Akurasi Prediksi
Proses klasifikasi dengan Rapid Miner menggungnakan metode Naive
Bayes yang digunakan untuk mengetahui minat beli pada konsumen pada peneltitan
44
Gambar 4. 3 Proses Training dan Testing 1. Accuracy/Akurasi
Dengan mengetahui jumlah data yang di klasifikasikan secara benar maka dapat diketahui akurasi hasil prediksi yaitu 96.25% dari hasil data testing.
Gambar 4. 4 Accuracy / Akurasi
Hasil analisa antara data yang di testing dengan data training di Rapid Miner dapat dilihat pada Lampiran 2. Untuk menghitung akurasinya sebagai berikut:
Jumlah data yang diuji : 51 Jumlah data yang diprediksi benar “Beli” : 5 Jumlah data yang diprediksi benar “Tidak” : 43 Jumlah data yang diprediksi salah “Beli” : 1 Jumlah data yang diprediksi salah “Tidak” : 2
Akurasi = Jumlah data yang diprediksi benar/jumlah data yang diuji*100% = (5+43) / (5+43+1+2)*100%
= 94,12%
Eror = Jumlah data yang diprediksi salah/jumlah data yang diuji*100% = (1+2) / (5+43+1+2)*100%
= 5,88%
Dari perhitungan tersebut dapat disimpulkan bahwa klasifikasi dengan menggunakan metode Naive bayes untuk menentukan minat beli konsumen menghasilkan tingkat akurasi sebesar 94,12% dan tingkat error 5,88%
46
Gambar 4. 5 Kurva ROC
Kurva ROC digunakan untuk mengekspresikan data. Garis horizontal mewakili nilai false positive dan garis dan garis vertikal mewakili nilai true positive. Dari gambar 4.5 dapat diketahui bahwa nilai Area Under Curve (AUC) model algoritma naive bayes adalah 0.970, hal ini menunjukan bahwa model algoritma
47
BAB V
KESIMPULAN
5.1 Kesimpulan
Berdasarkan hasil penelitian yang telah dilakukan mengenai penentuan prediksi untuk menentukan minat beli konsumen terhadap komputer dengan metode
Naïve Bayes, maka dapat diambil beberapa kesimpulan sebagai berikut :
1. Metode Naive Bayes dapat digunakan untuk mengklasifikasi data agar dapat memprediksi minat beli konsumen terhadap komputer.
2. Berdasarkan hasil Analisa pada penelitian yang dilkakukan, didapatkan hasil prediksi menentukan minat beli konsumen terhadap komputer dengan cepat dan akurat, dari pengujian yang dilakukan dengan membandingkan
data training dengan data testing menggunakan aplikasi pendukung Rapid Miner didapat tingkat akurasi sebesar 94.12%.
5.2 Saran
Penelitian yang dilakukan tentunya tak lepas dari sebuah kekurangan. Berdasarkan hasil penelitian yang telah dilakukan mengenai minat beli konsumen terhadap komputer dengan metode Naive Bayes pada toko i – computer, ada beberapa saran yang penulis berikan sebagai acuan dalam penelitian selanjutnya.
1. Pada penelitian ini belum dibuatkannya sistem pendukung keputusan untuk menentukan minat beli terhadap komputer dan dapat dikembangkan dengan metode klasifikasi data maining lainnya agar bisa dilakukan perbandingan. 2. Penentuan jumlah data training dapat mempengaruhi hasil pengujian, karena pola data training tersebut akan dijadikan sebagai rule untuk
48
menentukan kelas pada data testing. Sehingga besar atau kecilnya persentase tingkat akurasi dipengaruhi juga oleh penentuan data training, maka untuk penelitian selanjutnya diharapkan dapat menambahkan jumlah
data training lebih banyak lagi.
3. Tidak berlaku jika probabilitas kondisionalnya adalah nol pada metode
49
DAFTAR PUSTAKA
Bachriansyah, R. A. (2011). “ Analisis Pengaruh Kualitas Produk , Daya Tarik Iklan , dan Persepsi Harga Terhadap Minat Beli Konsumen Pada Produk Ponsel Nokia ( Studi Kasus Pada Masyarakat di Kota Semarang ) “.
Dama, D. (2016). Analisis Faktor-Faktor Yang Mempengaruhi Minat Beli Konsumen Dalam Memilih Laptop Acer Di Toko Lestari Komputer Manado,
16(1), 503–514.
Helmi, S. M. (2015). Faktor-faktor yang mempengaruhi minat beli konsumen pada cv. master pasir pengaraian kabupaten rokan hulu.
Kurniawan, S., & Hidayat, T. (2007). Penerapan Data Mining Dengan Metode Interpolasi Untuk Memprediksi Minat Konsumen Asuransi ( Studi Kasus Asuransi Metlife ), 5(2), 113–128.
Mandala, W. P. E. (2015). Data Mining Menggunakan Bayesian Classifier Untuk Menentukan Kelayakan Kendaraan Yang Akan Dijual Pada Showroom Motor Bekas, 1(Senatkom).
Munandar, R. A., & Astuti, S. (2015). Prediksi Menu Favorit Salam Laos Menggunakan Naïve Bayes Prediction Of Salam Laos Favorite Menu Using
Naïve Bayes, (x).
Nofriansyah, D., Erwansyah, K., & Ramadhan, M. (2016). Penerapan Data Mining dengan Algoritma Naive Bayes Clasifier untuk Mengetahui Minat Beli Pelanggan terhadap Kartu Internet XL (Studi Kasus di CV. Sumber Utama Telekomunikasi), 15, 81–92.
50
Pauziah, U. (2017). Analisis Penentuan Karyawan Terbaik Menggunakan Metode
Algoritma Naive Bayes ( Studi Kasus Pt . Xyz ), (April), 94–102.
Ridwan, M., Suyono, H., & Sarosa, M. (2013). Penerapan Data Mining Untuk Evaluasi Kinerja Akademik Mahasiswa Menggunakan Algoritma Naive Bayes
Classifier, 7(1), 59–64.
Saleh, A. (2015). Implementasi Metode Klasifikasi Naïve Bayes Dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga, 2(3), 207–217. Saragih, H., & Reza, B. (2013). Implementasi Data Mining Algoritma Apriori Pada
Sistem Persediaan Alat-Alat Kesehatan, 93–106.
Sitaba, M. R. (2011). Penerapan Data Mining Untuk Menghitung Rata- Rata Minat Konsumen Fashion.
Sumarwan, U. (n.d.). Model Keputusan Konsumen, 1–41.
Sutrisno, Afriyudi, & Widiyanto. (2013). Penerapan Data Mining Pada Penjualan Menggunakan Metode Clustering Study Kasus Pt . Indomarco, 1–11.
Wulanningrum, R., & Swanjaya, D. (2017). Implementasi Metode Naive Bayes Pada Penjualan Pulsa Konter Matahari Cell Implementation Of Sales Method
Naive Bayes Pulse Counter Matahari Cell Oleh : Dibimbing Oleh : Surat