BAB I PENDAHULUAN
1.6 Sistematika Penulisan
Sistematika penulisan dibuat untuk menghasilkan suatu laporan yang lebih terarah dan tidak menyimpang dari permasalahan yang telah ditentukan. Agar maksud dan tujuan yang diharapkan dapat tercapai, penulis membagi pembahasan laporan ini dalam 4 bab, yang terdiri dari :
BAB I PENDAHULUAN
Bab ini berisi tentang uraian latar belakang masalah, identifikasi masalah, rumusan masalah, pembatasan masalah, tujuan dan manfaat penelitian dan sistematika penulisan.
BAB II LANDASAN TEORI
Bab ini menguraikan dasar – dasar teori yang digunakan dalam membangun dan mendukung penelitian ini meliputi kajian pustaka dan teori-teori tentang data mining.
BAB III HASIL DAN BAHASAN
Pada bab ini penulis akan menguraikan tentang objek penelitian meliputi struktur organisasi, sampel data, metode pengumpulan data dan alternatif pemecahan masalah.
BAB IV HASIL DAN PEMBAHASAN
Pada bab ini penulis akan menjelaskan tentang pembahasan dan pengujian dengan Algoritma Naïve Bayes untuk mencari hasil dari penelitian ini.
BAB V PENUTUP
Bab ini merupakan bab penutup yang menguraikan mengenai kesimpulan yang penulis ambil dari pembahasan pada bab-bab sebelumnya dan saran sebagai masukan terhadap permasalahan yang muncul yang diharapkan dapat bermanfaat bagi pemecahan masalah tersebut.
7 BAB II
TINJAUAN PUSTAKA
2.1 Tinjauan Pustaka
Kajian atau studi literature terkait penelitian sejenis atau metode yang sama yang digunakan untuk dapat dijadikan bahan pertimbangan dan acuan, diharapkan dapat membantu dalam penelitian yang baru akan dilakukan.
Pemanfaatan data mining dengan metode Naïve Bayes, seperti dalam penelitian Dicky Nofriansyah, dkk (2016) dalam jurnal “Penerapan Data Mining dengan Algoritma Naïve Bayes Clasifier untuk Mengetahui Minat Beli Pelanggan terhadap Kartu Internet XL(Studi Kasus di CV.Sumber Utama Telekomunikasi)”
menyimpulkan berdasarkan perhitungan akhir dengan mengalikan nilai peluang dari kasus yang diangkat bahwa nilai P(X|Keterangan=”Minat”) lebih tinggi dari P(X|Keterangan=”Tidak”) = 0.141842 banding 0.021053, sehingga kartu internet tersebut masuk dalam klasifikasi “Minat”. Hasil penelitian ini dapat memprediksi atau memperkirakan laku atau tidak kartu internet yang baru. Oleh sebab itu, algoritma Naïve Bayes sangat cocok diterapkan dalam memprediksi peluang di masa depan berdasarkan pengalaman sebelumnya.
Muhammad Husni Rifqo dan Ardi Wijaya (2017) dalam penelitiannya dengan judul “Implementasi Algoritma Naïve Bayes dalam Menentukan Pemberian Kredit”, penelitian ini untuk memprediksi dan mengklasifikasi nasabah mana saja yang bermasalah atau tidak bermasalah dan diharapkan mampu meningkatkan akurasi dalam menganalisa kelayakan kredit. Adapun data yang
digunakan adalah data Agiing kredit dan untuk perbandingan akurasi model penelitian ini juga menggunakan public data set yang ada di UCI data set yaitu data persetujuan kredit (credit approval) negara Japan dan Australia. Dari hasil penelitian ini terbukti bahwa model naïve bayes mempunyai akurasi yang baik, hal ini terbukti dari hasil evaluasi penelitian bahwa model Naïve Bayes mampu menganalisa pelanggan yang baik dan pelanggan yang buruk baik menggunakan data Agiing Leasing ACC maupun menggunakan data credit approval negara Australia dan Japan dari UCI data set dengan tingkat akurasi yang baik. Dan banyaknya record dan atribut pada sebuah data set mempengaruhi tingkat akurasi dari model Naïve Bayes ini.
Pada penelitian sebelumnya Algoritma Naïve Bayes juga digunakan oleh Alfa Saleh (2015) dalam jurnal “Implementasi Metode Klasifikasi Naïve Bayes dalam Memprediksi Besarnya Penggunaan Listrik Rumah Tangga”, menyimpulkan bahwa metode Naïve Bayes memanfaatkan data training untuk menghasilkan probabilitas setiap kriteria untuk class yang berbeda, sehingga nilai-nilai probabilitas dari kriteria tersebut dapat dioptimalkan untuk memprediksi penggunaan listrik berdasarkan proses klasifikasi yang dilakukan oleh metode Naïve Bayes itu sendiri. Dan berdasarkan data rumah tangga yang dijadikan data training, metode Naïve Bayes berhasil mengklasifikasikan 47 data dari 60 data yang diuji. Sehingga metode Naïve Bayes berhasil memprediksi besarnya penggunaan listrik rumah tangga dengan persentase keakuratan sebesar 78.3333%.
2.2 Dasar Teori 2.2.1 Penerapan
Menurut Mella Sri Rahayu Nursrilfa (2013:194) penerapan adalah suatu perbuatan mempraktekkan suatu teori, metode, dan hal lain untuk mencapai tujuan tertentu dan untuk suatu kepentingan yang diinginkan oleh suatu kelompok atau golongan yang telah terencana dan tersusun sebelumnya.
Jadi, penerapan dapat diartikan sebagai suatu tindakan untuk mengaplikasikan suatu cara dengan maksud untuk mencapai tujuan tertentu.
2.2.2 Analisa
Menurut Hidayat (dalam Riska, dkk., 2017:45) analisis adalah kemampuan pemecahan masalah subjek ke dalam elemen-elemen konstituen, mencari hubungan-hubungan internal dan diantara elemen-elemen, serta mengatur format-format pemecahan masalah secara keseluruhan yang ada pada akhirnya menjadi sebuah nilai-nilai ekspektasi. Daya analisis juga merupakan gambaran dari abilitas dalam fungsi-fungsi mencirikhaskan fakta-fakta yang berbasis pada hipotesis yang dibangun. Serta abilitas dalam fungsi-fungsi evaluasi material-material yang bersifat ekstrak dan kompleks. Daya analisis dapat mempertegas asumsi-asumsi pemecahan masalah-masalah yang ada. Identifikasi pemecahan masalah tersebut akan diakhiri dengan kesimpulan yang dibangun ke dalam susunan pernyataan-pernyataan yang jauh lebih tegas dan pasti.
Menurut Makinuddin & Tri Hidayat (dalam Riska, dkk., 2017:45) Analisis adalah aktivitas yang memuat sejumlah kegiatan seperti mengurai, membedakan,
memilah sesuatu untuk digolongkan dan dikelompokkan kembali menurut kriteria tertentu kemudian dicari kaitannya dan ditafsir maknanya.
2.2.3 Pelanggan
Menurut Fakhri Hadi, dkk (2017:71) Pelanggan merupakan bagian penting dari perusahaan karena dapat memberikan keuntungan bagi perusahaan dan meningkatkan faktor pertumbuhan pada suatu perusahaan. Perusahaan akan melakukan segala cara untuk mempertahankan pelanggan yang memberikan keuntungan besar bagi perusahaan tetapi, perusahaan sulit untuk mendapatkan pelanggan yang memberikan keuntungan besar bagi perusahaan. Sifat pelanggan yang selalu pilih-pilih membuat perusahaan sulit untuk membedakan mana pelanggan yang memberikan keuntungan besar bagi perusahaan atau pelanggan yang kurang menguntungkan bagi perusahaan.
Pelanggan Aktif adalah pelanggan dari perusahaan jika dia melakukan pembelian berulang dari produk perusahaan tersebut dan diharapkan untuk membeli setidaknya sekali dalam setiap 12 bulan durasi. Mereka adalah orang-orang yang memaksimalkan pendapatan perusahaan dan dengan demikian perusahaan bekerja untuk mempertahankan pelanggan dengan meningkatkan pengalaman mereka dan memberikan diskon.
2.2.4 Penjualan
Penjualan merupakan salah satu fungsi pemasaran yang sangat penting dan pemasaran bagi para pengusaha dalam mencapai tujuaanya yaitu memperoleh laba untuk menjaga kelangsungan hidup bisnisnya. Sebenarnya pengertian penjualan sangat luas, beberapa ahli mengemukakan tentang definisi penjualan antara lain:
Menurut Bunafit Nugroho (2013:189) transaksi penjualan yaitu transaksi menjual barang atau distribusi barang dari gudang atau toko kita kepada pelanggan (customer).
Menjual adalah proses interaksi antara calon pembeli dan calon penjual dalam menjajaki sebuah transaksi barang atau jasa yang saling dibutuhkan kedua pidak. Adapun 4 syarat utama menjual adalah:
1. Ada calon pembeli dan penjual,
2. Proses interaksi komunikasi dan persepsi,
3. Menjajaki sebuah transaksi/pertukaran kepentingan, 4. Barang, jasa, ide, gagasan, rencana, keyakinan dan prinsip.
Transaksi penjualan menurut Tata Sutabri (2014:152) adalah persetujuan jual beli antara dua pihak. Dan menurut I Putu Agus Eka Pratama (2015:3) transaksi penjualan dilakukan secara langsung melalui tatap muka antara penyedia barang dan jasa dengan para konsumen.
2.2.5 Produk
Menurut Sarini Kodu (2013:1251) Produk adalah segala sesuatu yang dapat ditawarkan kepasar untuk mendapatkan perhatian, dibeli, digunakan, atau dikonsumsi yang dapat memuaskan keinginan atau kebutuhan.
Produk menurut Kotler & Keller (dalam Resty Avita Haryanto, 2013:1466) adalah is anything that can be offered to a market to satisfy a want or need. Produk adalah apa saja yang dapat ditawarkan kepada pasar untuk memuaskan keinginan atau kebutuhan.
2.2.6 Data Mining
Menurut Clifton (dalam Suyanto, 2017:1) ‘Data Mining didefinisikan sebagai proses penemuan pola-pola baru dari kumpulan-kumpulan data sangat besar, meliputi metode-metode yang yang merupakan irisan artificial intelligence, machine learnin, statistics, dan database systems’.
Menurut Taruna R., S., Hiranwal, S., (dalam Alfa Saleh, 2015:208) ‘Data Mining merupakan proses pengekstrasian infromasi dari sekumpulan data yang sangat besar melalui penggunaan algoritma dan teknik penarikan dalam bidang statistik, pembelajaran mesin dan sistem manajemen basis data’.
Menurut Larose (dalam M. Husni Rifqo dan Ardi Wijaya, 2017:121)
‘Data Mining adalah proses menelusuri pengetahuan baru, pola dan tren yang dipilih dari jumlah data yang besar yang disimpan dalam repositori atau tempat penyimpanan dengan menggunakan teknik pengenalan pola serta statistik dan teknik matematika’.
Menurut David Hand, dkk (dalam Prabowo Pudjo Widodo, dkk., 2013:2)
‘Data mining adalah analisa terhadap data (biasanya data yang berukuran besar) untuk menemukan hubungan yang jelas serta menyimpulkan yang belum diketahui sebelumnya dengan cara terkini dipahami dan berguna bagi pemilik data tersebut’.
Data mining sudah ada sejak lama dan teori-teorinya pun sudah banyak dibahas dalam berbagai literatur. Teori-teori tersebut antara lain: Naïve Bayes dan Nearest Neighbour, Pohon Keputusan, Aturan Asosiasi, K-Means Clustering dan Text Mining, Bramer (dalam Prabowo Pudjo Widodo, dkk., 2013:2). Sedangkan
perkembangan terkini menghadirkan algoritma-algoritma yang baru dikembangkan antara lain: Jaringan Syaraf Tiruan (JST), Algoritma Genetik, Fuzzy C-Means, Support Vector Machine (SVM) dan lain-lain, Larose (dalam Prabowo Pudjo Widodo, dkk., 2013:2)
2.2.6.1 Algoritma dan Metode Data Mining
Menurut Dicky Nofriansyah dan Gunadi Widi Nurcahyo (2015:7) pada proses pemecahan masalah dan pencarian pengetahuan baru terdapat beberapa klasifikasi secara umum yaitu:
1. Estimasi
Digunakan untuk melakukan estimasi terhadap sebuah data baru yang tidak memiliki keputusan berdasarkan histori data yang telah ada. Contohnya ketika melakukan estimasi pembiayaan pada saat pembangunan sebuah hotel baru pada kota yang berbeda.
2. Asosiasi
Digunakan untuk mengenali kelakuan dari kejadian-kejadian khusus atau proses dimana hubungan asosiasi muncul pada saat kejadian. Adapun metode pemecahan masalah yang sering digunakan seperti algoritma Apriori.
Cntohnya pemanfaatan algoritma asosiasi yaitu pada bidang marketing ketika sebuah minimarket melakukan tata letak produk yang dijual berdasarkan produk-produk mana yang paling sering dibeli konsumen, selain itu seperti tata letak buku yang dilakukan pustakawan di perpustakaan.
3. Klasifikasi
Suatu teknik dengan melihat pada kelakuan dan atribut dari kelompok yang telah didefinisikan. Teknik ini dapat memberikan klasifikasi pada data baru dengan memanipulasi data yang ada yang telah diklasifikasi dan dengan menggunakan hasilnya untuk memberikan sejumlah aturan. Salah satu contoh yang mudah dan populer adalah dengan Decision Tree yaitu salah satu metode klasifikasi yang paling populer karena mudah untuk interpretasi seperti algoritma C4.5, ID3 dan lain-lain. Contoh pemanfaatannya adalah pada bidang akademik yaitu klasifikasi siswa yang layak masuk ke dalam kelas unggulan atau akselerasi di sekolah tertentu.
4. Klastering
Digunakan untuk menganalisis pengelompokan berbeda terhadap data, mirip dengan klasifikasi, namun pengelompokan belum didefinisikan sebelum dijalankannya tool data mining. Biasanya menggunakan metode neural network atau statistik, analitikal hierarki cluster. Clustering membagi item menjadi kelompok-kelompok berdasarkan yang ditemukan tool data mining.
5. Prediksi
Algoritma prediksi biasanya digunakan untuk memperkirakan atau forecasting suatu kejadian sebelum kejadian atau peristiwa tertentu terjadi.
Contohnya pada bidang Klimatologi dan Geofisika, yaitu bagaimana Badan Meterologi dan Geofisika (BMKG) memperkirakan tanggal tertentu bagaimana cuacanya, apakah hujan, panas, dan lain sebagainya. Ada beberapa metode yang sering digunakan salah satunya adalah Metode Rough Set.
2.2.6.2 Jenis Permasalahan Data Mining
Aplikasi yang menggunakan Data Mining bermaksud menyelesaikan permasalahan dengan membangun model berdasarkan data yang sudah digali untuk diterapkan terhadap data yang lain. Secara umum ada dua jenis tipologi aplikasi Data Mining (Prabowo Pudjo Widodo, dkk., 2013:5):
1. Metode Prediksi, yang bermaksud memprediksi nilai yang akan datang berdasarkan data-data yang telah ada variabelnya seperti klasifikasi, regresi, detikasi anomali dan lain-lain.
2. Metode Deskriptif, yang bermaksud membantu user agar mudah melihat pola-pola yang berasal dari data yang ada.
2.2.6.3 Kegunaan Data Mining
Secara umum kegunaan data mining dapat dibagi menjadi dua: deskriptif dan prediktif. Deskriptif berarti data mining digunakan untuk mencari pola-pola yang dapat dipahami manusia yang menjelaskan karakteristik data. Sedangkan prediktif berarti data mining digunakan untuk membentuk sebuah model pengetahuan yang akan digunakan untuk melakukan prediksi. Menurut Fayyad et all (dalam Suyanto, 2017:3) Berdasarkan fungsionalitasnya, tugas-tugas data mining bisa dikelompokan ke dalam enam kelompok berikut ini :
1. Klasifikasi (classification): men-generalisasi struktur yang diketahui untuk diaplikasikan pada data-data baru. Misalkan, klasifikasi penyakit ke dalam sebuah jenis, klasifikasi email ke dalam spam atau bukan.
2. Klasterisasi (clustering): Mengelompokan data, yang tidak diketahui label kelasnya, ke dalam sejumlah kelompok tertentu sesuai dengan ukuran kemiripannya.
3. Regresi (regression): menemukan suatu fungsi yang memodelkan data dengan galat (kesalahan prediksi) seminimal mungkin.
4. Deteksi anomali (anomaly detection): mengidentifikasi data yang tidak umum, bisa berupa outlier (pencilan), perubahan atau deviasi yang mungkin sangat penting dan perlu investigasi lebih lanjut.
5. Pembelajaran aturan asosiasi (association rule learning) atau pemodelan kebergantungan (dependency modeling): mencari relasi antar variabel.
6. Perangkuman (summarization): menyediakan representasi data yang lebih sederhana, meliputi visualisasi dan pembuatan laporan.
2.2.6.4 Aplikasi-Aplikasi Data Mining
Kemampuan perangkat keras dalam mengelola data yang berukuran besar baik prosesor dan harddisk, berkembangnya perangkat lunak pembuat aplikasi data mining, mengakibatkan tingginya permintaan terhadap aplikasi berbasis data mining dalam berbagai bidang. Selain itu, riset-riset yang dikembangkan oleh ilmuwan di seluruh dunia tentang teknik-teknik dan algoritma-algoritmanya banyak membantu kualitas dari sistem berbasis data mining seperti (Prabowo Pudjo Widodo, dkk., 2013:16) :
1. Perbankan dan Finansial
Bidang ini sangat membutuhkan aplikasi berbasis data mining dan telah lama menggunakan aplikasi-aplikasi tersebut. Dipergunakan dalam: Pemodelan
dan Deteksi Pelanggaran (Fraud), Analisis Resiko, Analisis Trend, Analisis Keuntungan, dan Sistem Pendukung Pemasaran.
2. Keuangan
Dalam bidang keuangan, aplikasi data mining biasa digunakan dalam:
Peramalan harga saham, pemilihan jenis usaha dagang, manajemen portofolio, peramalan harga barang, merger dan akuisisi perusahaan, peramalan bencana keuangan.
3. Kebijakan Penjualan
Pada bidang ritel dan supermarket (hypermarket) strategi penjualan telah banyak yang menggunakan teknik data mining, antara lain: data warehouse, segmentasi pelanggan, identifikasi profil nasabah, evaluasi harga produk tertentu (barang antik, mobil bekas, seni, dan lain-lain)
4. Kesehatan
Kesehatan juga merupakan salah satu bidang penting pertama yang mendorong pengembangan metode data mining, dari teknik visualisasi, memprediksi biaya perawatan kesehatan, hingga sistem diagnosis berbasis komputer.
5. Telekomunikasi
Dalam beberapa tahun terakhir, telekomunikasi telah mengambil manfaat dari penggunaan teknologi data mining. Terutama karena persaingan yang ketat antar operator telekomunikasi saat ini. Diperlukan sistem yang mampu mengidentifikasi profil pelanggan, memelihara loyalitas pelanggan, hingga strategi untuk menjual produk baru. Beberapa masalah yang dapat
diselesaikan dengan teknik data mining dalam bidang ini antara lain: deteksi penipuan dalam penggunaan telepon seluler, identifikasi profil pelanggan yang menguntungkan, identifikasi faktor yang mempengaruhi perilaku pelanggan terhadap beragam penggilan telepon, identifikasi resiko terhadap investasi baru (misalnya serat optik, nano-teknologi, semikonduktor, dan lain-lain), identifikasi perbedaan dalam produk dan jasa antar pesaing.
2.2.6.5 Pemodelan Data Mining
Menurut Prabowo Pudjo Widodo, dkk (2013:12) pemodelan adalah penggunaan prinsip atau teknik-teknik tertentu dalam suatu rancangan sistem.
Misalnya penerapan data mining untuk penjualan, perancang perlu memahami hal-hal yang berkaitan dengan penjualan mulai dari aspek internal hingga perekonomian global yang mungkin saja berpengaruh terhadap pengolahan data yang terjadi. Sebagai bahan pertimbangan, menurut Gounescu (dalam Prabowo Pudjo Widodo, dkk., 2013:13):
1. Identifikasi
Ini merupakan tahapan pertama dalam pemodelan data mining dari suatu permasalahan yang ada di lapangan. Dalam mengidentifikasi suatu masalah, dijumpai dua pendekatan yang saling bertolak belakang. Pendekatan yang pertama adalah pendekatan yang mengutamakan pengetahuan terdahulu dari suatu kasus. Dalam hal ini pengetahuan apriori menjadi andalan utama para pendukung teori ini. Pendekatan kedua adalah pengidentifikasian yang murni berdasarkan data yang ada. Sejauh mungkin dihindari dugaan awal terhadap suatu kondisi. Tidak ada pendekatan yang lebih baik antara satu dengan
lainnya. Sebaiknya para perancang sistem yang berbasis data mining mengombinasikan kedua pendekatan itu. Dugaan awal pada pendekatan pertama bisa membuat sistem menjadi bias sedangkan hanya mendasarkan pada data saja akan menemui kesulitan karena data yang akan diolah harus data yang terstruktur dengan benar (fine).
2. Estimasi dan Pencocokan
Setelah tahap identifikasi selesai, tahap berikutnya adalah membuat formulasi numerik terhadap suatu model. Tahapan ini dikenal dengan nama tahapan pencocokan model dengan data. edangkan konversi dari model menjadi angka numerik disebut dengan istilah estimasi.
3. Pengujian
Pengujian merupakan tahap terakhir sebelum sistem diimplementasikan.
Sistem yang telah dibuat diuji terhadap data lain yang belum pernah dimiliki dan bukan data yang dipakai untuk membentuk model itu. Keberhasilan dari pengujian bergantung dari output yang dihasilkan oleh suatu sistem yang diuji, apakah sesuai dengan kenyataan yang ada atau tidak.
4. Penerapan praktis
Tiap perancang sistem berbasis data mining harus menyadari bahwa sistem yang dirancang adalah ditunjukan untuk menyelasaikan permalahan-permasalahan yang ada di lapangan. Oleh karena itu baik atau buruknya suatu sistem tergantung dari kemanfaatan yang diperoleh terhadap penggunaannya.
Pengguna di lapangan tidak terlalu memperhatikan proses yang kita lalui
dalam pemodelan data mining, mereka hanya tahu manfaat apa yang diberikan oleh sistem yang dibuat tersebut.
5. Iterasi
Seperti pembuatan suatu produk dalam industri, terjadi proses berulang antarsatu tahap dengan tahap lainnya guna memperoleh produk yang dapat bersaing. Iterasi mengharuskan perancang untuk selalu berfikir kembali terhadap model yang dibuatnya. Dengan adanya perulang-ulangan diharapkan diperoleh model yang tangguh dan cocok dengan situasi dan kondisi yang yang terjadi saat implementasi.
2.2.6.6 Knowledge Discovery Database (KDD)
Menurut Dicky Nofriansyah dan Gunadi Widi Nurcahyo (2015:4) pada proses Data Mining yang biasa disebut Knowledge Discovery Database (KDD) terdapat beberapa proses yaitu sebagai berikut:
1. Seleksi Data (Selection)
Selection (seleksi/ pemilihan) data dari merupakan sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam Knowledge Discovery Database (KDD) dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pemilihan Data (Preprocessing/Cleaning)
Proses Preprocessing mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak(tipografi). Juga dilakukan proses Enrichment, yaitu
proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformasi (Transformation)
Pada fase ini yang dilakukan adalah mentransformasi bentuk data yang belum memiliki entitas yang jelas ke dalam bentuk data yang valid atau siap untuk dilakukan proses Data Mining.
4. Data Mining
Pada fase ini yang dilakukan adalah menerapkan algoritma atau metode pencarian pengetahuan.
5. Interpretasi / Evaluasi (Interpratation/Evaluation)
Pada fase terakhir ini yang dilakukan adalah proses pembentukan keluaran yang mudah dimengerti yang bersumber pada proses Data Mining pola informasi.
2.2.6.7 Klasifikasi
Bagian sangat penting dalam data mining adalah teknik klasifikasi, yaitu bagaimana mempelajari sekumpulan data sehingga dihasilkan aturan yang bisa mengklasifikasikan atau mengenali data-data baru yang belum pernah dipelajari.
Klasifikasi dapat didefinisikan sebagai proses untuk menyatakan suatu objek data sebagai salah satu kategori (kelas) yang telah didefinisikan sebelumnya, menurut Zaki et all (dalam Suyanto, 2017:115). Klasifikasi banyak digunakan dalam berbagai aplikasi, diantaranya adalah deteksi kecurangan (fraud detection), pengelolaan pelanggan, diagnosis medis, prediksi penjualan, dan sebagainya.
Bagaimana cara membangun sebuah model klasifikasi (classifier)? Model klasifikasi dapat dibangun berdasarkan pengetahuan seorang pakar(ahli). Namun, mengingat himpunan data yang sangat besar, model klasifikasi lebih sering dibangun menggunakan teknik pembelajaran dalam bidang machie learning.
Proses pembelajaran secara otomatis terhadap suatu himpunan data mampu menghasilkan model klasifikasi (fungsi target) yang memetakan objek data x (input) ke salah satu kelas y yang telah didefinisikan sebelumnya. Jadi, proses pembelajaran memerlukan masukan (input) berupa himpunan data latih (traning set) yang berlabel (memiliki atribut kelas) dan mengeluarkan output yang berupa sebuah model klasifikasi.
Menurut Dicky Nofriansyah dan Gunadi Widi Nurcahyo (2015:17) Klasifikasi merupakan sebuah proses training (pembelajaran) suatu fungsi tujuan (target) yang digunakan untuk memetakan tiap himpunan atribut suatu objek ke satu dari label kelas tertentu yang didefinisikan sebelumnya. Teknik klasifikasi ini cocok digunakan dalam mendeskripsikan data set dengan tipe data dari suatu himpunan data yaitu biner atau nominal. Adapun kekurangan dari teknik ini yaitu tidak tepat untuk himpunan data ordinal karena pendekatan-pendekatan yang digunakan secara implisit dalam kategori data.
Ada beberapa teknik klasifikasi yang digunakan sebagai solusi pemecahan kasus diantaranya yaitu:
1. Algoritma C4.5
2. Algoritma K-Nearest Neighbor 3. ID3
4. Naïve Bayes Clasification
5. CART (Clasification And Regression Tree)
2.2.7 Algoritma Naïve Bayes
Menurut Rini Artika (2013:124) Algoritma adalah merupakan kumpulan perintah untuk menyelesaikan suatu masalah. Perintah – perintah ini dapat diterjemahkan secara bertahap dari awal hingga akhir. Masalah tersebut dapat berupa apa saja, dengan catatan untuk setiap masalah, ada kriteria kondisi awal yang harus dipenuhi sebelum menjalankan algoritma.
Naïve Bayes ini menggunakan teorema Bayes, yang ditemukan oleh Thomas Bayes di abad 18. Menurut Dicky Nofriansyah dan Gunadi Widi Nurcahyo (2015:35) Naïve Bayesian Classifier merupakan salah satu algoritma pemecahan masalah yang termasuk dalam metode klasifikasi pada Data Mining.
Naïve Bayesian Classifier mengadopsi ilmu statistika yaitu dengan menggunakan teori kemungkinan (probabilitas) untuk menyelesaikan sebuah kasus Supervised Learning, artinya dalam himpunan data terdapat label, class, atau target sebagai
Naïve Bayesian Classifier mengadopsi ilmu statistika yaitu dengan menggunakan teori kemungkinan (probabilitas) untuk menyelesaikan sebuah kasus Supervised Learning, artinya dalam himpunan data terdapat label, class, atau target sebagai