• Tidak ada hasil yang ditemukan

PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES

N/A
N/A
Protected

Academic year: 2021

Membagikan "PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES"

Copied!
64
0
0

Teks penuh

(1)

SKRIPSI

Oleh:

YURI EKA AGUSTA 311410290

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA BEKASI

(2)

PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES

SKRIPSI

Diajukan Sebagai Salah Satu Syarat Untuk Menyelesaikan Program Sarjana pada Program Studi Teknik Informatika

Oleh:

YURI EKA AGUSTA 311410290

TEKNIK INFORMATIKA

SEKOLAH TINGGI TEKNOLOGI PELITA BANGSA BEKASI

(3)
(4)

PENGESAHAN

(5)
(6)
(7)

KATA PENGANTAR

Puji syukur penulis panjatkan ke hadiran Allah SWT. yang telah melimpahkan segala rahmat dan hidayah-Nya, sehingga tersusunlah Skripsi yang berjudul “PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES”.

Skripsi tersusun dalam rangka melengkapi salah satu persyaratan dalam rangka menempuh ujian akhir untuk memperoleh gelar Sarjana Komputer (S.Kom.) pada Program Studi Teknik Informatika di Sekolah Tinggi Teknologi Pelita Bangsa.

Penulis sungguh sangat menyadari, bahwa penulisan Skripsi ini tidak akan terwujud tanpa adanya dukungan dan bantuan dari berbagai pihak. Sudah selayaknya, dalam kesempatan ini penulis menghaturkan penghargaan dan ucapan terima kasih yang sebesar-besarnya kepada:

a. Bapak Dr. Ir. Suprianto, M.P selaku Ketua STT Pelita Bangsa

b. Bapak Aswan S. Sunge, S.E., M.Kom selaku ketua Program Studi Tehnik Informatika STT Pelita Bangsa.

c. Bapak Abdul Halim Anshor S.Kom, M.Kom dan Bapak Ahmad Aguswin, S.T., M.M. selaku dosen pembimbing satu dan dua.

d. Seluruh Dosen STT Pelita Bangsa yang telah membekali penulis dengan wawasan dan ilmu di bidang teknik informatika.

e. Seluruh staf STT Pelita Bangsa yang telah memberikan pelayanan terbaiknya kepada penulis selama perjalanan studi jenjang Strata 1.

f. Rekan-rekan mahasiswa STT Pelita Bangsa, khususnya angkatan 2014, yang telah banyak memberikan inspirasi dan semangat kepada penulis untuk dapat menyelesaikan studi jenjang Strata 1.

g. Ibu dan Ayah tercinta yang senantiasa mendo’akan dan memberikan semangat dalam perjalanan studi Strata 1 maupun dalam kehidupan penulis.

(8)

Akhir kata, penulis mohon maaf atas kekeliruan dan kesalahan yang terdapat dalam Skripsi ini dan berharap semoga Skripsi ini dapat memberikan manfaat bagi khasanah pengetahuan Teknologi Informasi di lingkungan STT Pelita Bangsa khususnya dan Indonesia pada umumnya.

Bekasi, November 2018

Penulis

(9)

DAFTAR ISI

PERSETUJUAN ... i

PENGESAHAN ... ii

PERNYATAAN KEASLIAN PENELITIAN ... iv

KATA PENGANTAR...v

DAFTAR ISI ... vii

DAFTAR TABEL ... ix DAFTAR GAMBAR ...x ABSTRACT ... xi ABSTAKSI ... xii BAB I PENDAHULUAN ...1 1.1 Latar Belakang ...1 1.2 Identifikasi Masalah ...2 1.3 Rumusan Masalah...2 1.4 Batasan Masalah ...2

1.5 Tujuan dan Manfaat ...3

1.5.1 Tujuan ...3

1.5.2 Manfaat ...3

1.6 Sistematika Penulisan ...4

vii BAB II TINJAUAN PUSTAKA ...6

(10)

2.1 Kajian Pustaka ... Error! Bookmark not defined. 2.2 Dasar Teori ... Error! Bookmark not defined. 2.2.1 Data Mining... Error! Bookmark not defined. 2.2.2 Contoh penulisan label untuk table.. Error! Bookmark not defined. 2.3 Kerangka Berfikir ... Error! Bookmark not defined.

BAB III METODE PENELITIAN...45

3.1 Objek Penelitian ...45

3.2 Pengumpulan Data ...45

BAB V HASIL DAN PEMBAHASAN ...46

4.1 Hasil ...46 4.2 Pembahasan ...46 BAB V KESIMPULAN ...47 5.1 Kesimpulan ...47 5.2 Saran ...47 DAFTAR PUSTAKA ...48 LAMPIRAN ...49 viii

(11)

Tabel 0.2contoh 2 ... Error! Bookmark not defined.

(12)

DAFTAR GAMBAR

Gambar 1Gambar Insert Caption... Error! Bookmark not defined. Gambar 2Caption Dialog ... Error! Bookmark not defined. Gambar 3 Contoh Gambar ... Error! Bookmark not defined. Gambar 4Gambar dua ... Error! Bookmark not defined.

(13)

ABSTRACT

Abstract in English here…. Keyworad:

(14)

ABSTRAK

Abstrak dalam Bahasa Indonesia disini…. Kata kunci:

(15)

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dalam rangka membangun usaha para pelaku Usaha Mikro Kecil Menengah (UMKM) Alfamart memberikan program Store Sales Point. Program ini memberikan kemudahan pemilik usaha warung untuk mencukupi kebutuhan barang dagangannya dengan harga khusus dan pedagang akan mendapatkan kartu member khusus. Pembelian dilakukan dengan cara pemesanan melalui Alfa Mikro Aplikasi (AMA).

Pembayaran merupakan salah satu aktivitas penting pada setiap transaksi dalam kegiatan ekonomi. Dengan perkembangan teknologi yang semakin pesat, semakin banyak dan semakin besarnya nilai transaksi serta risiko, dibutuhkan adanya sistem pembayaran dan alat pembayaran yang cepat, lancar dan aman. Keberhasilan sistem pembayaran akan dapat mendukung perkembangan sistem keuangan dan perbankan. Sebaliknya ketidaklancaran atau kegagalan sistem pembayaran akan memberikan dampak yang kurang baik pada kestabilan perekonomian.

Pada saat ini pembayaran barang dagangan oleh member Store Sales Point adalah dengan 2 cara yaitu sistem pembayaran tunai dan sistem pembayaran non tunai. Sistem pembayaran non tunai menggunakan dana pinjaman dari pihak ke tiga yaitu Toko Modal, dengan sistem jangka waktu pembayaran yang telah ditentukan oleh pihak Store Sales Point.

(16)

2

Dari latar belakang tersebut maka penulis memfokuskan pada pola pembayaran yang dilakukan oleh member Store Sales Point sebagai skripsi dengan judul :

PENERAPAN DATA MINING CLASSIFICATION UNTUK TREN JENIS PEMBAYARAN MEMBER STORE SALES POINT ALFAMART DI CABANG KARAWANG MENGUNAKAN METODE NAÏVE BAYES

1.2 Identifikasi Masalah

Dari permasalahan yang ada penulis mengidentifikasikan beberapa permasalahan, sebagai berikut;

a. Belum adanya metode yang digunakan untuk menentukan apakah program jenis pembayaran non tunai efektif atau tidak.

b. Melihat perkembangan jenis sistem pembayaran yang dilakukan oleh Member Store Sales Point.

1.3 Rumusan Masalah

Berdasarkan uraian latar belakang di atas, diperoleh rumusan masalah yaitu bagaimana menggunakan metode naive bayes sehingga mampu menjadi pendukung keputusan yang dapat berguna dalam menentukan pola pembayaran Member Store Sales Point.

1.4 Batasan Masalah

Sebagaimana disebutkan dalam latar belakang ada beberapa permsalahan yang di analisa penulis. Ruang lingkup permasalahan di atas perlu adanya suatu batasan untuk memberikan kemudahan dalam praktek di lapangan.

(17)

 Algoritma yang di khususkan adalah Naïve Bayes guna menentukan tren jenis pembayaran yang dilakukan oleh Member Store Sales Point Alfamart cabang Karawang.

 Parameter yang digunakan adalah kepuasan pelanggan, sehinga dapat melihat perkembangan jenis pembayaran yang di inginkan.

1.5 Tujuan dan Manfaat 1.5.1 Tujuan

Berdasarkan rumusan masalah yang di uraikan di atas, maka tujuan dari penelitian ini adalah menerapkan algoritma klasifikasi naive bayes untuk melihat perkembangan jenis pembayaran yang di inginkan oleh member Store Sales Point Alfamart di Cabang Karawang.

1.5.2 Manfaat

Manfaat dari penelitian ini diantaranya adalah : a. Manfaat bagi Akademik

Penelitian ini dapat memberikan informasi bagi peneliti atau calon peneliti lain untuk menerapkannya kedalam sistem yang lebih luas dan lebih kompleks atau sebagai bahan acuan yang dapat di kembangkan bagi kemungkinan pengembang konsep materi lebih lanjut serta dapat melengkapi referensi pustaka Akademik.

b. Manfaat bagi Perusahaan

Membantu perusahaan dalam melihat pola perilaku member – member Store Sales Point dalam hal pembayaran, memberikan kemudahan bagi

(18)

4

perusahaan dalam menentukan jenis pembayaran yang banyak digunakan oleh member Store Sales Point Alfamart di Cabang Karawang.

c. Manfaat bagi member Store Sales Point

Memberikan kemudahan kepada konsumen untuk memilih jenis pembayaran.

d. Manfaat bagi penulis

Sebagai sarana untuk menambah wawasan pengetahuan serta pengalaman tentang penggunaan metode naive bayes dalam sistem pendukung keputusan serta sebagai sarana untuk mengaplikasikan ilmu yang didapatkan selama mengikuti perkuliahan.

1.6 Sistematika Penulisan

Untuk mempermudah dalam penyusunan laporan tugas akhir ini, adapun sistem penulisan dikelompokkan dalam beberapa bab, yang masing-masing diuraikan sebagai berikut:

BAB I PENDAHULUAN

Bab ini membahas mengenai latar belakang masalah, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian serta sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini membahas mengenai penelitian terkait, Data Mining, Rapidminer, Kerangka pemikiran dan teori-teori pendukung lainnya.

(19)

Bab ini membahas langkah-langkah yang dilaksanankan dalam proses penelitian pengumpulan data (observasi, wawan cara, studi pustaka), algoritma naive bayes clasification.

BAB IV HASIL PENELITIAN DAN PEMBAHASAN

Bab ini menjelaskan uraian panjang lebar mengenai penelitan yang dibuat mengenai hasil dan pembahasan.

BAB V PENUTUP

Bab ini membahas kesimpulan yang diambil dari hasil penelitian dan penulisan skripsi ini, serta saran-saran untuk pengembangan selanjutnya, agar dapat dilakukan perbaikan dimasa yang akan datang.

(20)

BAB II

LANDASAN TEORI

2.1 Pengertian Sistem Pembayaran

Sistem yang mencakup seperangkat aturan, lembaga dan mekanisme yang digunakan untuk melaksanakan pemindahan dana guna memenuhi suatu kewajiban yang timbul dari suatu kegiatan ekonomi.[1] Sistem Pembayaran merupakan sistem yang berkaitan dengan pemindahan sejumlah nilai uang dari satu pihak ke pihak lain. Media yang digunakan untuk pemindahan nilai uang tersebut sangat beragam, mulai dari penggunaan alat pembayaran yang sederhana sampai pada penggunaan sistem yang kompleks dan melibatkan berbagai lembaga berikut aturan mainnya. 2.2 Jenis – Jenis Alat Pembayaran

Secara umum, alat pembayaran dapat dibedakan menjadi dua jenis yaitu alat pembayaran tunai dan non tunai. Masing-masing alat pembayaran tunai dan non tunai. Masing – masing alat pembayaran ini memiliki kelebihan dan kekurangan tersendiri. Alat pembayaran kelebihannya dapat dipergunakan dalam melakukan transaksi dimanapun dan kapanpun, tetapi kekurangannya ialah sulit dibawa dalam jumlah yang besar untuk melakukan kegiatan transaksi. Sedangkan alat pembayaran non tunai kelebihannya mudah dibawa dalam julah yang besar, simple dan praktis, namun kekurangannya ialah belum tentu dapat dipergunakan pada toko-toko berskala kecil dalam melakukan kegiatan transaksi pembayaran. Berikut ini penjelasan lengkapnya :

(21)

a. Alat pembayaran tunai

Alat pembayaran tunai dapat dilakukan menggunkan uang baik jenis uang kertas mapun logam. Dalam peredarannya di masyarakat, uang yang tersedia ada dalam berbagai jenis pecahan yang berfungsi untuk memudahkan dalam kegiatan bertransaksi. Agar kebutuhan uang tunai dapat terpenuhi di masyarakat, maka sangat perlu dilakukan empat kegiatan yang strategis dalam menangani uang tunai.

b. Alat pembayaran nontunai

Secara umum alat pembayaran nontunai dapat digolongkan menjadi dua kelompok yaitu alat pembayaran untuk credit transfer dan debit transfer. Perbedaan yang mendasar antara credit transfer dan debit transfer terletak pada perintah pengiriman uang. Berdasarkan terminology yang dibuat oleh Bank Of International Settlement (BIS), credit transfer adalah perintah pembayaran untuk tujuan penempatan dana dari pengirim ke penerima dan dimungkinkan melalui bank lain sebagai perantaranya. Sedangkan debit transfer adalah sistem transfer dana saat perintah transfer dibuat atau diotorisasi oleh pihak yang memiliki dana dan akan melakukan pengiriman dana tersebut kepada pihak lain. Berikut ini jenis – jenis alat pembayaran nontunai :

 Cek

Cek adalah surat perintah tidak bersyarat untuk membayar sejumlah dana yang tercantum dalam cek.

(22)

8

 Bilyet Giro

Bilyet Giro adalah surat perintah dari nasabah kepada bank penyimpan dana untuk memindahkan bukukan sejumlah dana dari rekening yang bersangkutan kepada rekening pemegang yang disebutkan namanya.

 Kartu ATM/Debit

Kartu ATM/Debit adalah kartu pembayaran menggunakan kartu yang digunakan untuk melakukan penarikan tunai, pemindahan dana, melakukan pembayaran, transaksi belanja, dan lain sebagainya.

 Kartu Kredit

Kartu kredit pada dasarnya merupakan alat pembayaran yang memiliki prinsip “buy now pay later”, atau dalam Bahasa indonesianya memiliki arti beli sekarang bayar kemudian (nanti), dimana pada saat transaksi kewajiban pemegang kartu ditalangi terlebih dahulu oleh penerbit kartu kredit. Pemegang kartu kemudian dapat melunasi pembayaran kepada penerbit kartu kredit berdasarkan waktu yang disepakati antara pemegang kartu kredit dan penerbit, misalnya perbulan atau pertahun.

(23)

Secara sederhana, uang elektronik dapat didefinisikan sebagai alat pembayaran dalam bentuk elektronik tertentu. Walaupun memuat karakteristik yang sedikit berbeda dengan instrument pembayaran lainnya seperti kartu kredit dan kartu ATM/Debit, namun penggunaan instrument ini tetap sama dengan kartu kredit dan kartu ATM/Debit yakni ditujukan sebagai alat pembayaran.

 Sistem Transfer BI-RTGS

Sistem Bank Indonesia Real Time Gross Stettlement (BI-RTGS) ialah suatu sistem transfer dana elektronik antarpeserta dalam mata uang rupiah yang penyelesaiannya dilakukan secara seketika pertransaksi secara individual.

 Sistem Dompet Elektronik (E-Wallet)

Dompet elektronik berfungsi hampir sama dengan dompet saku. Dompet elektronik pertama kalinya diakui sebagai sebuah metode untuk menyimpan uang dalam bentuk elektronik, namun kemudian menjadi populer karena cocok untuk menyediakan cara yang nyaman bagi pengguna Internet untuk menyimpan dan menggunakan informasi berbelanja secara daring (online). Dengan perkembangan dunia internet yang semakin maju mendorong penggunaan dompet elektronik sebagai alat transaksi yang lebih efisien ketimbang menggunakan bank. ini terbukti dengan banyaknya website-webisite e-comerce yang menggunakan dompet elektronik sebagai alat transaksinya. Beberapa contoh yang

(24)

10

termasuk dalam kategori e-wallet adalah PayPal, Doku, Rakuten, RekBer dan Toko Modal.

2.3 Data Mining

Pengertian data mining, berdasarkan beberapa orang:

1. Data mining (penambangan data) adalah suatu proses untuk menemukan suatu pengetahuan atau informasi yang berguna dari data berskala besar. Sering juga disebut segabai bagian proses KDD (Knowledge Discovery in Databases). (Santosa, 2007).

2. Proses menemukan korelasi-korelasi penuh arti, pola-pola dan trend dengan penyaringan melalui sejumlah data yang besar pada tempat penyimpanan, dan menggunakan teknologi pengenalan pola seperti yang terdapat pada teknik-teknik di statistika dan matematika (Larose, 2005). 3. Data mining adalah kegiatan menemukan pola yang menarik dari data

dalam jumlah besar, data dapat disimpan dalam database, data warehouse, ataupenyimpanan informasi lainnya. Data mining berkaitan dengan bidang ilmu–ilmu lain seperti database system, data warehousing, statistik, machine learning, information retrieval, dan komputasi tingkat tinggi. Selain itu, data mining didukung oleh ilmu lain seperti neural network,

(25)

pengenalan pola, spatial data analysis, image database, signal processing (Han, et al., 2006).

4. Data mining didefinisikan sebagai proses menemukan pola-pola dalam data. Proses ini otomatis atau seringnya semiotomatis. Pola yang ditemukan harus penuh arti dan pola tersebut memberikan keuntungan, biasanya keuntungan secara ekonomi. Data yang dibutuhkan dalam jumlah besar (Witten, et al.,2005).

Karakteristik data mining sebagai berikut :

a. Data mining berhubungan dengan penemuan sesuatu yang tersembunyi dan pola data tertentu yang tidak diketahui sebelumnya.

b. Data mining biasa menggunakan data yang sangat besar. Biasanya data yang besar digunakan untuk membuat hasil lebih percaya.

c. Data mining berguna untuk membuat keputusan yang kritis, terutama dalam strategi.

2.3.1 Tahap-Tahap Data Mining

Salah satu tuntutan dari data mining ketika diterapkan pada data berskala besar adalah diperlukan metodologi sistematis tidak hanya ketika melakukan analisa saja tetapi juga ketika mempersiapkan data dan juga melakukan interpretasi dari hasilnya sehingga dapat menjadi aksi ataupun keputusan yang bermanfaat. Karenanya data mining seharusnya dikhususkan sebagai suatu proses, yang memiliki tahapan-tahapan tertentu dan juga ada umpan balik dari setiap tahapan ke

(26)

12

tahapan sebelumnya. Pada umumnya proses data mining berjalan interaktif karena tidak jarang hasil data mining pada awalnya tidak sesuai dengan harapan analisnya sehingga perlu dilakukan desain ulang prosesnya.

Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base.

Keterangan:

1. Pembersihan data

(27)

Pembersihan data merupakan proses menghilangkan noise dan data yang tidak konsisten atau data tidak relevan. Pada umumnya data yang diperoleh, baik dari database suatu perusahaan maupun hasil eksperimen, memiliki isian-isian yang tidak sempurna seperti data yang hilang, data yang tidak valid atau juga hanya sekedar salah ketik. Selain itu, ada juga atribut-atribut data yang tidak relevan dengan hipotesa data mining yang dimiliki. Data-data yang tidak relevan itu juga lebih baik dibuang. Pembersihan data juga akan mempengaruhi performasi dari teknik data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.

2. Integrasi data

Integrasi data merupakan penggabungan data dari berbagai database ke dalam satu database baru. Tidak jarang data yang diperlukan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitasentitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lainnya. Integrasi data perlu dilakukan secara cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan aksi nantinya. Sebagai contoh bila integrasi data berdasarkan jenis produk ternyata menggabungkan produk dari kategori yang berbeda maka akan didapatkan korelasi antar produk yang sebenarnya tidak ada.

(28)

14

Data yang ada pada database sering kali tidak semuanya dikhususkan, oleh karena itu hanya data yang sesuai untuk dianalisis yang akan diambil dari database. Sebagai contoh sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis tidak perlu mengambil nama pelanggan cukup dengan id pelanggan saja.

4. Transformasi data

Data diubah atau digabung ke dalam format yang sesuai untuk diproses dalam data mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diaplikasikan. Sebagai contoh beberapa metode standar seperti analisis asosiasi dan clustering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi-bagi menjadi beberapa interval. Proses ini sering disebut transformasi data. Ada beberapa jenis transformasi data yang sering digunakan, diantaranya

 Transformasi kuadrat, berarti kita mengoprasikan pangkat dua data variablel.

 Transformasi kubik, berarti kita mengoprasikan pangkat tiga pada data variabel asli.

 Transformasi akar, berarti kita mengoprasikan akar pada data variabel asli. Berguna untuk memperbaiki data yang terdistribusi positive skewness dan unequal variance (data tidak memenuhi asumsi kehomogenan). Dapat digunakan untuk data persentase, jika nilainya kebanyakan kecil maka sebaiknya gunakan transformasi akar.

(29)

Transformasi invers/kebalikan, melakukan oprasi balikan baik balikan pangkat atupun tidak.

 Transformasi logarima, berarti kita mengoprasikan data asli kebentuk ligaritma. Digunakan untuk data yang terdisibusi positive skewness dan unequel variance. Ada beberapa hal yang perlu diperhatikan, jika pada data asli menunjukan nilai kurang dari 10 atau mendekati nol, maka gunakan log(x+1); jika data banyak mendekati nol seperti desimal, maka sebaiknya dikalikan 10 lalu di logaritmakan atau log(10x).

 Transformasi arcsin, berarti kita mengoprasikan data asli kebentuk arcsin (balikan sinus), disebut juga transformasi Angular yang di gunakan bila data dinyatakan dalam bentuk persentas atau proposi biasanya memiliki sebaran Binomial. Ada beberapa hal yang perlu diperhatikan, apabila data asli memiliki nilai antara 30%- 70% maka tidak membutuhkan transformasi, bila memiliki 0%-30% dan 70%-100% maka lakukan transformasi Arcsin dan bila banyak bernilai nol maka gunakan transformasi Arcsin akar (%+0,5).

 Transformasi invers skor, digunakan dalan data yang terdapat dalam nilai negatif dan akan menggunakan transfomasi berikutnya, berguna untuk memperbaiki data yang terdistribusi positive skwe dan unequal variance 5. Proses mining

Merupakan suatu proses utama saat metode diterapkan untuk menemukan pengetahuan berharga dan tersembunyi dari data.

(30)

16

6. Presentasi pengetahuan

Untuk mengidentifikasi pola-pola menarik kedalam knowledge based yang ditemukan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah hipotesa yang ada memang tercapai. Bila ternyata hasil yang diperoleh tidak sesuai hipotesa, ada beberapa alternatif yang dapat diambil seperti menjadikannya umpan balik untuk memperbaiki proses data mining. Mencoba metode data mining lain yang lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.

2.3.2 Manfaat Data Mining

Pemanfaatan data mining dilihat dari dua sudut pandang, yaitu sudut pandang komersial dan sudut pandang keilmuan.

 Dari sudut pandang komersial, pemanfaatan data mining dapat digunakakan untuk menangani meledaknya volume data, dengan teknik komputasi dapat digunakan untuk menghasilkan informasi-informasi yang di butuhkan yang merupakan asset yang dapat meningkatkan daya saing suatu institusi. Contohnya:

1. Bagaimana hilangnya pelanggan karena pesaingan.

2. Bagaimana mengetahui item produk atau konsumen yang memiliki kesamaan karakteristik.

3. Bagaimana mengidentifikasi produk-produk yang terjual bersamaan dengan produk lain.

(31)

4. Bagaimana memprediksi tingkat penjualan.

5. Bagaimana menilai tingkat resiko dalam menentukan jumlah produksi suatu item.

6. Bagaimana memprediksi prilaku bisnis dimasa yang akan datang.

 Dari sudut pandang keilmuan, data mining dapat digunakan untuk mengcapture, menganalisa serta menyimpan data yang bersifat real time dan sangat besar, misalnya:

1. Remote sensor yang ditempatkan pada suatu satelit. 2. Telescope yang digunakan untuk memindai langit.

3. Simulasi saintifik yang membangkitkan data dalam ukuran terrabytes.

2.3.3 fungsi Data Mining

fungsi-fungsi umum yang diterapkan data mining (Haskett, 2000)

1. Assosiation, adalah proses untuk menemukan aturan asosiasi antara suatu

kombinasi item dalam suatu waktu.

2. Sequence, proses untuk menemukan suatu aturan asosiasi antara suatu

kombinasi item dalam suatu waktu dan diterapkan lebih dari satu priode.

3. Clustering, adalah proses pengelompokan sejumlah data/obyek kedalam

kelompok data sehingga setiap kelompok berisi data yang mirip.

4. Classification, proses penemuan model atau fungsi yang menjelaskan atau

membedakan konsep atau kelas data dengan tujuan untuk dapat memperkirakan kelas dari suatu obyek yang lebelnya tidak diketahui. 5. Regression, adalah proses pemetaan data dalam suatu nilai prediksi.

(32)

18

6. Forecasting, adalah proses pengestimasian nilai prediksi berdasarkan pola-pola didalam sekumpulan data.

7. Solution, adalah penemuan akar masalah dan problem solving dari

persoalan bisnis yang dihadapi atau paling tidak sebagai informasi dalam pengambilan keputusan.

2.3.4 Penerapan Data Mining

1. Analisa pasar dan menejemen

Sumber data yang digunakan seperti transaksi kartu kredit, kartu anggota club tertentu, kupon diskon, keluhan pembeli, ditambah studi tentang gaya hidup public.

Beberapa solusi yang dapat diselesaikan dengan data mining antara lain:

 Menembak target pasar

Data mining dapat melakukan pengelompokan (clustering) dari model- model pembeli dan melakukan klasifikasi terhadap setiap pembeli sesuai dengan karakteristik yang di inginkan seperti kedudukan yang sama, tingkat penghasilan yang sama, kebiasaan membeli dan karakteristik lainnya.

 Melihat pola pembeli pemakai dari waktu kewaktu

Data mining dapat digunakan untuk melihat pola beli dari waktu kewaktu. Sebagai contoh, ketika seorang menikah biasa saja dia kemudian memutusksn untuk pindah dari single account ke joint account.

(33)

Kita dapat memanfaatkan untuk melihat hubungan antara penjual satu produk dengan produk lainya.

Profil customer

Data mining dapat melihat profil customer sehingga dapat mengetahui kelompok customer tertentu suka membeli produk apa saja.

Identifikasi kebutuhan customer

Dapat mengidentifikasi apa saja yang terbaik untuk tiap kelompok customor dan faktor apa saja yang dapat menarik konsumen baru.

Melihat loyalitas customer

Informasi summary

Dapat digunakan untuk melihat laporan summary yang bersifat multi dimensi dan dilengkapi dengan informasi statistic lainnya.

2. Analisa perusahaan dan menejemen resiko

 Perencangan keuangan dan evaluasi asset

Data mining dapat membantu melakukan analisa dan prediksi cash flow serta dapat melakukan contingent claim analysis untuk mengevaluasi aset. Selain itu dapat menggunakan untuk analisis trend.

 Perencanaan sumber daya

Dengan melihat ringkasan informasi serta pola pembelanjaan dan pemasukan dari masing-masing resource. Maka dapat memanfaatkan untuk resource planning.

(34)

20

Data mining dapat membantu untuk memonitor pesaing. Pesaing dengan melihat market direction mereka. Data mining dapat juga melakukan pengelopokan customer dan dapat memberikan variasi harga untuk masing-masing group.

3. Telekomunikasi

Data mining melihat jutaan transaksi yang masuk, dan melihat transaksi mana sajakah yang masih harus di tangani secara manual. Tujuannya adalah untuk menambah layanan otomatis.

4. Keuangan

Financial Crimes Enforcement Network di Amerika Serikat baru baru ini menggunakan data mining untuk menambang triliyunan dari berbagai subyek seperti properti, rekening bank dan transaksi keuangan lainnya untuk mendeteksi transaksi-transaksi mencurigakan (seperti money laundry).

5. Asuransi

Australian Health Insurance commisison menggunakan data mining untuk mengidentifikasi layanan kesehatan yang sebenernya tidak perlu tetapi tetep dilakukan oleh peserta asuransi.

(35)

Tehnik yang digunakan dalam data mining erat kaitannya dengan’’ penemuan”(discovery) dan”pembelajaran”(learning) yang terbagi dalam tiga metode utama pembelajaran yaitu:

a. Supervised learning

Adalah tehnik yang paling banyak di gunakan, tehnik ini sama dengan”programming by ecample”. Tehnik ini melibatkan fase pelatihan dimana data pelatihan historis yang karakter-karakternya di petakan kehasil-hasil yang telah diketahui diolah dalam algoritma data mining. Proses ini melatih algoritma untuk mengenali variabel-variabel dan nilai-nilai kunci yang nantinya akan digunakan sebagai dasar dalam membuat perkiraan-perkiraan ketika diberikan data baru. b. Unsupervised learning

Tehnik pembelajaran ini tidak melibatkan fase pelatihan seperti yang terdapat pada supervised learning. Tehnik ini bergantung pada penggunaan algoritma yang mendeteksi semua pola, seperti associations dan sequences, yang muncul dari kriteria penting yang spesifik dalam data masukan. Pendekatan ini mengarah pada pembuatan banyak aturan (rules) yang mengkarakterisasikan penemuan associations, clussters, dan segments. Atutan-aturan ini kemudian dianalisis untuk menemukan hal-hal yang penting.

c. Reinforcement learning

Tehnik pembelajaran ini jarang digunakan dibandingkan dengan dua tehnik lainnya, namun memiliki penerapan-penerapan yang terus dioptimalkan dari waktu kewaktu dan memiliki kontrol adaptif. Tehnik ini sangat menyerupai kehidupan nyata yaitu seperti”on-job-training”, dimana seorang pekerja diberikan sekumpulan

(36)

22

tugas yang membutuhkan keputusan-keputusan. Pada beberapa titik waktu kelak diberikan penilaian atas performance pekerja tersebut kemudian pekerja diminta mengevaluasi keputusan-keputusan yang telah dibuatnya sehubungan dengan hasil performance pekerja tersebut. Reinforcement learning sangat tepat digunakan untuk menyelesaikan masalah-masalah yang sulit yang bergantung pada waktu.

2.3.6 Kategori Data Mining

Data mining dibagi menjadi dua kategori utama (Han dan kamber, 2006) yaitu:

a. Prediktif

Tujuan dari tugas prediktif adalah untuk memprediksi nilai dari atribut tertentu berdasarkan pada nilai atribut-atribut lain. Atibut yang di prediksi umumnya dikenal sebagai target atau variable tak bebas, sedangkan atribut-atribut yang di untuk membuat prediksi dikenal sebagai explanatory atau variabel bebas. b. Deskritif

Tujuan dari tugas deskriptif adalah untuk menurukan pola- (korelasi, trend, cluster, teritori, dan anomali) yang meringkas hubungan yang pokok dalam data. Tugas data mining deskriptif sering merupakan penyelidikan dan seringkali memerlukan teknik post-procesing untuk validasi dan penjelasan hasil.

2.3.7 Kelebihan Dan Kekurangan Data Mining

Data mining mempunyai kelebihan dan kekurangan dalam mengolah data diantaranya kekurangan dan kelebihan data mining adalah:

(37)

Kelebihan data mining:

1. Kemampuan dalam mengolah data dalam jumlah yang besar. 2. Pencarian data secara otomatis.

Kekurangan data mining:

1. Kendala database

2. Tidak bisa melakukan analisa sendiri

2.3.8 CRISP-DM (Cross Industry Standart Process for Data Mining)

CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan suatu konsorsium perusahaan yang didirikan oleh Komisi Eropa pada tahun 1996 dan telah ditetapkan sebagai proses standar dalam data mining yang dapat diaplikasikan di berbagai sektor industri. Berikut ini adalah gambar proses siklus hidup pengembangan dari CRISP-DM :

Gambar 2.2 CRISP-DM Keterangan gambar :

(38)

24

Tahap pertama adalah memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke dalam pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut.

2. Data Understanding

Tahap ini dimulai dengan pengumpulan data yang kemudian akan dilanjutkan dengan proses untuk mendapatkan pemahaman yang mendalam tentang data, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.

3. Data Preparation

Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan/modeling) dari data mentah. Tahap ini dapat diulang beberapa kali. Pada tahap ini juga mencakup pemilihan tabel, record, dan atribut-atribut data, termasuk proses pembersihan dan transformasi data untuk kemudian dijadikan masukan dalam tahap pemodelan (modeling).

4. Modeling

Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal. Secara khusus, ada beberapa teknik berbeda yang dapat diterapkan untuk masalah data mining yang sama. Di pihak lain ada teknik pemodelan yang

(39)

membutuhan format data khusus. Sehingga pada tahap ini masih memungkinan kembali ke tahap sebelumnya.

5. Evaluation

Pada tahap ini, model sudah terbentuk dan diharapkan memiliki kualitas baik jika dilihat dari sudut pandang analisa data. Pada tahap ini akan dilakukan evaluasi terhadap keefektifan dan kualitas model sebelum digunakan dan menentukan apakah model dapat mencapat tujuan yang ditetapkan pada fase awal (Business Understanding). Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.

6. Deployment

Pada tahap ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan sederhana atau mengimplementasikan proses data mining yang berulang dalam perusahaan. Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

2.4 Klasifikasi

Classification (Han dan Kamber, 2006: 285) adalah sebuah model dalam data mining dimana, classifier dikontruksi untuk memprediksi categorical lebel,

(40)

26

seperti”aman” atau “beresiko” untuk data aplikasi peminjaman uang;”ya” atau “tidak” untuk data marketing; atau “treatment A”, “treatment B” atau “treatment C” untuk data medis. Kategori tersebut dapat direpresentasikan dengan nilai yang sesuai dengan kebutuhannya, dimana pengaturan dari nilai tersebut tidak memiliki arti tertentu.

Classification dan Association rule discovery merupakan tugas yang sama dalam data mining, dengan pengecualian bahwa tujuan utam dari klasifikasi adalah prediksi lebel kelas, sedangkan assosiasi aturan penenemuan mengambarkan korelasi antara item dalam database transasional. (Fadi Thabtha, 2007).

Proses data klasifikasi memiliki dua tahapan, yang pertama adalah Learning: yaitu training data dianalisa dengan menggunakan sebuah algoritma klasifikasi. Dan yang kedua adalah Classification: yaitu pada tahap ini test data digunakan untuk mengestiasi ketepatan dari Classification rules. Jika keakuratan yang dikondisikan dan yang diperkirakan data diterima, rule tersebut dapat diaplikasikasikan pada klasifikasi lainnya dari tuple data yang baru. Vladimir Nikulin (2008) lebih spesifik mengatakan bahwa, classification hanya bisa diterapkan pada data training yang sangat kuat dimana diasumsikan bahwa kelas” positif” sudah mewakili minoritas tanpa atribut umum.

2.4.1 Algoritma Naive Bayes

Algoritma Naive Bayes merupakan salah satu algoritma yang terdapat pada teknik klasifikasi. Naive Bayes merupakan pengklasifikasian dengan metode

(41)

probabilitas dan statistik yang dikemukan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman dimasa sebelumnya sehingga dikenal sebagai Teorema Bayes. Teorema tersebut dikombinasikan dengan Naive dimana diasumsikan kondisi antar atribut saling bebas. Klasifikasi Naive Bayes diasumsikan bahwa ada atau tidak ciri tertentu dari sebuah kelas tidak ada hubungannya dengan ciri dari kelas lainnya.

Persamaan dari teorema Bayes adalah :

Keterangan :

X : Data dengan class yang belum diketahui

H : Hipotesis data X merupakan suatu class spesifik

P(H|X) :Probabilitas hipotesis H berdasar kondisi X (posteriori probability) P(H) : Probabilitas hipotesis H (prior probability)

P(X|H) : Probabilitas X berdasarkan kondisi pada hipotesis H P(X) : Probabilitas X

Untuk menjelaskan teorema Naive Bayes, perlu diketahui bahwa proses klasifikasi memerlukan sejumlah petunjuk untuk menentukan kelas apa yang cocok bagi sampel yang dianalisis tersebut. Karena itu, teorema bayes di atas disesuaikan sebagai berikut :

Dimana Variabel C merepresentasikan kelas, sementara variabel F 1... Fn merepresentasikan karakteristik petunjuk yang dibutuhkan untuk melakukan

(42)

28

klasifikasi. Maka rumus tersebut menjelaskan bahwa peluang masuknya sampel karakteristik tertentu dalam kelas C (Posterior) adalah peluang munculnya kelas C (sebelum masuknya sampel tersebut, seringkali disebut prior), dikali dengan peluang kemunculan karakteristik – karakteristik sampel pada kelas C (disebut juga likelihood), dibagi dengan peluang kemunculan karakteristik – karakteristik sampel secara global ( disebut juga evidence). Karena itu, rumus diatas dapat pula ditulis secara sederhana sebagai berikut :

Posterior =

Nilai Evidence selalu tetap untuk setiap kelas pada satu sampel. Nilai dari posterior tersebut nantinya akan dibandingkan dengan nilai – nilai posterior kelas lainnya untuk menentukan ke kelas apa suatu sampel akan diklasifikasikan. Penjabaran lebih lanjut rumus Bayes tersebut dilakukan dengan menjabarkan (C|F1, ... , Fn) menggunakan aturan perkalian sebagai berikut :

Dapat dilihat bahwa hasil penjabaran tersebut menyebabkan semakin banyak dan semakin kompleksnya faktor – faktor syarat yang mempengaruhi nilai probabilitas, yang hampir mustahil untuk dianalisa satu persatu. Akibatnya, perhitungan tersebut menjadi sulit untuk dilakukan. Disinilah digunakan asumsi

(43)

independensi yang sangat tinggi (naif), bahwa masing – masing petunjuk (F1, F2 ... Fn) saling bebas (independen) satu sama lain.

Dengan asumsi maka berlaku suatu kesamaan sebagai berikut :

Dari persamaan diatas dapat disimpulkan bahwa asumsi independensi naif tersebut membuat syarat peluang menjadi

sederhana, sehingga perhitungan menjadi mungkin untuk dilakukan. Selanjutnya, penjabaran P(C|F1, ... , Fn) dapat disederhanakan menjadi :

Persamaan diatas merupakan model dari teorema Naive Bayes yang selanjutnya akan digunakan dalam proses klasifikasi. Untuk klasifikasi dengan data kontinyu digunakan rumus Densitas Gauss:

Keterangan : P : Peluang X : Atribut ke i

(44)

30

xi : Nilai atribut ke i

Y : Sub kelas Y yang dicari yi : Sub kelas Y yang dicari

μ : Mean, menyatakan rata-rata dari seluruh atribut

σ : Deviasi standar, menyatakan varian dari seluruh atribut

Adapun alur dari metode Naive Bayes adalah sebagai berikut :

1. Baca data training

2. Hitung Jumlah dan probabilitas, namun apabila data numerik maka:

a. Cari nilai mean dan standar deviasi dari masing – masing parameter yang merupakan data numerik.

b. Cari nilai probabilistik dengan cara menghitung jumlah data yang sesuai dari kategori yang sama dibagi dengan jumlah data pada kategori tersebut. 3. Mendapatkan nilai dalam tabel mean, standart deviasi dan probabilitas.

(45)

2.4.2 Contoh Kasus Penggunaan Metode Naive Bayes Tabel 1. Data Training

No Jumlah Tanggungan Keluarga Luas Rumah Pendapat an/ bulan Daya Listrik Perlengkapan Yang Dimiliki Penggunaan Listrik

1 Banyak Besar Besar Sedang Banyak Tinggi

2 Banyak Besar Besar Sedang Banyak Tinggi

3 Banyak Besar Besar Sedang Banyak Tinggi

4 Banyak Besar Besar Sedang Banyak Tinggi

5 Banyak Besar Besar Sedang Banyak Tinggi

(46)

32

6 Kecil Standar Besar Rendah Sedang Sedang

7 Kecil Besar Besar Sedang Sedang Sedang

8 Kecil Kecil Besar Sedang Sedang Sedang

9 Sedang Besar Besar Sedang Banyak Sedang

10 Sedang Besar Besar Sedang Banyak Sedang

11 Sedang Standar Besar Sedang Banyak Sedang

12 Sedang Standar Besar Sedang Banyak Sedang

13 Sedang Standar Besar Sedang Banyak Tinggi

14 Sedang Standar Besar Sedang Banyak Tinggi

15 Sedang Standar Besar Sedang Banyak Tinggi

60 Banyak Standar Kecil Sedang Banyak Sedang

Kriteria dan Probabilitas:

Adapun nilai probabilitas setiap kriteria didapatkan dari data latih pada tabel 1. Adapun nilai probabilitas setiap kriteria sebagai berikut.

1. Probabilitas Kriteria Jumlah Tanggungan

Berdasarkan data penggunaan listrik rumah tangga pada tabel 1diketahui jumlah data latih (data training) adalah sebanyak 60 data, di mana dari 60 data tersebut terdapat 3 data rumah tangga dengan jumlah tanggungan banyak dan penggunaan listrik rendah, 2 data rumah tangga dengan jumlah tanggungan banyak dan penggunaan listrik sedang, 5 data rumah tangga dengan jumlah tanggungan banyak dan penggunaan listrik tinggi. 21 data rumah tangga dengan jumlah tanggungan sedang dan penggunaan listrik rendah, 4 data rumah tangga dengan jumlah tanggungan sedang dan penggunaan listrik sedang, 0 data rumah tangga dengan jumlah tanggungan sedang dan penggunaan listrik tinggi. 9 data rumah

(47)

tangga dengan jumlah tanggungan sedikit dan penggunaan listrik rendah, 13 data rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik sedang, 3 data rumah tangga dengan jumlah tanggungan sedikit dan penggunaan listrik tinggi. Probabilitas kriteria jumlah tanggungan dapat dilihat pada tabel 2.

Tabel 2. Probabilitas Kriteria Jumlah Tanggungan Jumlah

Tanggungan

Jumlah Kejadian “Penggunaan Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

Banyak 3 2 5 0.09 0.11 0.63

Sedang 21 4 0 0.64 0.21 0.00

Sedikit 9 13 3 0.27 0.68 0.38

Jumlah 33 19 8 0.55 0.32 0.13

2. Kriteria Luas Rumah

Pada kriteria luas rumah dapat diketahui dari 60 data terdapat 7 data rumah tangga dengan luas rumah besar dan penggunaan listrik rendah, 5 data rumah tangga dengan luas rumah besar dan penggunaan listrik sedang, 5 data rumah tangga dengan luas rumah besar dan penggunaan listrik tinggi. 5 data rumah tangga dengan luas rumah standar dan penggunaan listrik rendah, 11 data rumah tangga dengan luas rumah standar dan penggunaan listrik sedang, 3 data rumah tangga dengan luas rumah standar dan penggunaan listrik tinggi. 21 data rumah tangga dengan luas rumah kecil dan penggunaan listrik rendah, 3 data rumah tangga dengan luas rumah kecil dan penggunaan listrik sedang, 0 data rumah tangga dengan luas rumah kecil dan penggunaan listrik tinggi. Probabilitas kriteria luas rumah dapat dilihat pada tabel 3.

(48)

34

Tabel 3. Probabilitas Kriteria Luas Rumah Luas

Rumah

Jumlah Kejadian “Penggunaan Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

Besar 7 5 5 0.21 0.26 0.63

Standar 5 11 3 0.15 0.58 0.38

Kecil 21 3 0 0.64 0.16 0.00

Jumlah 33 19 8 0.55 0.32 0.13

3. Probabilitas Kriteria Pendapatan

Pada kriteria pendapatan dapat diketahui dari 60 data terdapat 0 data rumah tangga dengan pendapatan besar dan penggunaan listrik rendah, 7 data rumah tangga dengan pendapatan besar dan penggunaan listrik sedang, 8 data rumah tangga dengan pendapatan besar dan penggunaan listrik tinggi. 0 data rumah tangga dengan pendapatan sedang dan penggunaan listrik rendah, 0 data rumah tangga dengan pendapatan sedang dan penggunaan listrik sedang, 0 data rumah tangga dengan pendapatan sedang dan penggunaan listrik tinggi. 33 data rumah tangga dengan pendapatan kecil dan penggunaan listrik rendah, 12 data rumah tangga dengan pendapatan kecil dan penggunaan listrik sedang, 0 data rumah tangga dengan pendapatan kecil dan penggunaan listrik tinggi. Probabilitas kriteria pendapatan dapat dilihat pada tabel 4.

Tabel 4. Probabilitas Pendapatan

Pendapatan

Jumlah Kejadian “Penggunaan Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

(49)

Sedang 0 0 0 0.00 0.00 0.00

Kecil 33 12 0 1.00 0.63 0.00

Jumlah 33 19 8 0.55 0.32 0.13

4. Probabilitas Daya Listrik

Pada kriteria daya listrik dapat diketahui dari 60 data terdapat 0 data rumah tangga dengan daya listrik tinggi dan penggunaan listrik rendah, 7 data rumah tangga dengan daya listrik tinggi dan penggunaan listrik sedang, 8 data rumah tangga dengan daya listrik tinggi dan penggunaan listrik tinggi. 0 data rumah tangga dengan daya listrik sedang dan penggunaan listrik rendah, 0 data rumah tangga dengan daya listrik sedang dan penggunaan listrik sedang, 0 data rumah tangga dengan daya listrik sedang dan penggunaan listrik tinggi. 33 data rumah tangga dengan daya listrik rendah dan penggunaan listrik rendah, 12 data rumah tangga dengan daya listrik rendah dan penggunaan listrik sedang, 0 data rumah tangga dengan daya listrik rendah dan penggunaan listrik tinggi. Probabilitas kriteria daya listrik dapat dilihat pada tabel 5.

Tabel 5. Probabilitas Daya Listrik Daya

Listrik

Jumlah Kejadian “Penggunaan Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

(50)

36

Sedang 21 17 8 0.64 0.89 1.00

Rendah 12 2 0 0.36 0.11 0.00

Jumlah 33 19 8 0.55 0.32 0.13

5. Probabilitas Perlengkapan

Pada kriteria perlengkapan dapat diketahui dari 60 data terdapat 0 data rumah tangga dengan perlengkapan tinggi dan penggunaan listrik rendah, 7 data rumah tangga dengan perlengkapan banyak dan penggunaan listrik sedang, 8 data rumah tangga dengan perlengkapan banyak dan penggunaan listrik banyak. 0 data rumah tangga dengan perlengkapan sedang dan penggunaan listrik rendah, 0 data rumah tangga dengan perlengkapan sedang dan penggunaan listrik sedang, 0 data rumah tangga dengan perlengkapan sedang dan penggunaan listrik tinggi. 33 data rumah tangga dengan perlengkapan sedikit dan penggunaan listrik rendah, 12 data rumah tangga dengan perlengkapan sedikit dan penggunaan listrik sedang, 0 data rumah tangga dengan perlengkapan sedikit dan penggunaan listrik tinggi. Probabilitas kriteria perlengkapan dapat dilihat pada tabel 6.

Tabel 6. Probabilitas Perlengkapan

Perlengkapan

Jumlah Kejadian “Penggunaan Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

Banyak 4 12 8 0.12 0.63 1.00

Sedang 3 3 0 0.09 0.16 0.00

Sedikit 26 4 0 0.79 0.21 0.00

(51)

6. Probabilitas Penggunaan Listrik

Berdasarkan tabel 1 diketahui dari 60 data penggunaan listrik terdapat 33 data rumah tangga dengan penggunaan listrik rendah, 19 data rumah tangga dengan penggunaan listrik sedang, 8 data rumah tangga dengan penggunaan listrik tinggi. Probabilitas kriteria penggunaan listrik dapat dilihat pada tabel 7.

Tabel 7. Probabilitas Penggunaan Listrik Jumlah Kejadian “Penggunaan

Listrik”

Probabilitas

Rendah Sedang Tinggi Rendah Sedang Tinggi

33 19 8 0.55 0.32 0.13

Berdasarkan contoh kasus dengan menggunakan metode naive bayes pada penelitian tentang memprediksi penggunaan listrik rumah tangga dapat ditarik beberapa kesimpulan sebagai berikut :

1. Metode Naive Bayes memanfaatkan data training untuk menghasilkan probabilitas setiap kriteria untuk class yang berbeda, sehingga nilai-nilai probabilitas dari kriteria tersebut dapat dioptimalkan untuk memprediksi penggunaan listrik berdasarkan proses klasifikasi yang dilakukan oleh metode Naive Bayes itu sendiri.

2. Berdasarkan data rumah tangga yang dijadikan data training, metode Naive Bayes berhasil mengklasifikasikan 47 data dari 60 data yang diuji.

(52)

38

2.4.3 Pengujian Cross Validation

Validation adalah proses untuk mengevaluasi keakuratan prediksi dari model. Validasi digunakan untuk memperoleh prediksi menggunakan model yang ada dan kemudian membandingkan hasil tersebut dengan hasil yang sudah diketahui, ini mewakili langkah paling penting dalam proses membangun sebuah model.

Cross Validation adalah teknik validasi dengan membagi data secara acak ke dalam k bagian dan masing-masing bagian akan dilakukan proses klasifikasi. Dalam Cross Validation, jumlah tetap khusus atau partisi dari data ditentukan sendiri. Cara standar untuk memprediksi error rate dari teknik pembelajaran dari sebuah sampel data tetap adalah dengan menggunakan tenfold cross validation.

Dengan tenfold cross validation, data akan dibagi secara acak menjadi 10 bagian, dimana class diwakili (kurang lebih) proporsi yang sama seperti pada dataset yang penuh. Setiap bagian mendapatkan gilirannya dan skema pembelajaran dilatih pada sisa sembilan persepuluh; kemudian error rate dihitung pada holdout set. Dengan demikian, prosedur pembelajaran dilaksanakan sebanyak 10 kali di training set yang berbeda (setiap set memiliki banyak kesamaan dengan yang lain). Akhirnya, 10 estimasi error dirata-rata untuk menghasilkan perkiraan kesalahan keseluruhan.

2.4.3 Evaluasi dan Validasi Klasifikasi Data Mining

Untuk melakukan evaluasi pada algoritma naïve bayes maka diilakukan pengujian menggunakan confusion matrix.

(53)

Confusion Matrix

Confusion matrix memberikan keputusan yang diperoleh dalam traning dan testing, confusion matrix memberikan penilaian performance klasifikasi berdasarkan objek dengan benar atau salah. Confusion matrix berisi informasi aktual (actual) dan prediksi (predicted) pada sistem klasifikasi.

Tabel 2.1: Tabel Confusion Matrix untuk 2 Kelas

Classification Predicted Class

Observed Class

Class = Yes Class = No

Class = Yes A (true positif – tp) B (false negative – fn) Class = No C (false positif – fp) D (true negative – tn) Keterangan:

a. True Positive (tp) = proporsi positif dalam data set yang diklasifikasikan positif.

b. True Negative (tn) = proporsi negative dalam data set yang diklasifikasikan negative.

c. False Positive (fp) = proporsi negatif dalam data set yang diklasifikasikan potitif.

(54)

40

d. FalseNegative(fn) = proporsi negative dalam data set yang diklasifikasikan negative

Tabel 2.2 : Tabel Confusion Matrix untuk 3 Kelas Predicted Cla s

Class 1 Class 2 Class 3

Actual Class Class 1 Count11 Count12 Count13

Class 2 Count21 Count22 Count23

Class 3 Count31 Count32 Count33

Berikut adalah persamaan model confusion matrix untuk 3 kelas: a. Nilai akurasi

b. Error rate

2.5 RapidMiner

RapidMiner adalah platform perangkat lunak ilmu data yang dikembangkan oleh perusahaan bernama sama dengan yang menyediakan lingkungan terintegrasi untuk persiapan data, pembelajaran mesin, pembelajaran dalam, penambangan

(55)

teks, dan analisis prediktif. Hal ini digunakan untuk bisnis dan komersial, juga untuk penelitian, pendidikan, pelatihan, rapid prototyping, dan pengembangan aplikasi serta mendukung semua langkah dalam proses pembelajaran mesin termasuk persiapan data, hasil visualisasi, validasi model, dan optimasi. RapidMiner dikembangkan pada model inti terbuka dengan RapidMiner Studio Free Edition, yang terbatas untuk 1 prosesor logika dan 10.000 baris data, tersedia di bawah lisensi AGPL.

RapidMiner perangakat lunak yang bersifat terbuka (open source). RapidMiner adalah sebuah solusi untuk melakukan analisis terhadap data mining, text mining dan analisis prediksi. RapidMiner menggunakan berbagai teknik deskriptif dan prediksi dalam memberikan wawasan kepada pengguna sehingga dapat membuat keputusan yang paling baik. RapidMiner memiliki kurang lebih 500 operator data mining, termasuk operator untuk input, output, data preprocessing dan visualisasi. RapidMiner merupakan software yang berdiri sendiri untuk analisis data dan sebagai mesin data mining yang dapat diintegrasikan pada produknya sendiri. RapidMiner ditulis dengan munggunakan siap java sehingga dapat bekerja di semua sistem operasi.

RapidMiner sebelumnya bernama YALE (Yet Another Learning Environment), dimana versi awalnya mulai dikembangkan pada tahun 2001 oleh RalfKlinkenberg, Ingo Mierswa, dan Simon Fischer di Artificial Intelligence Unit dari University of Dortmund. RapidMiner didistribusikan di bawah lisensi AGPL (GNU Affero General Public License) versi 3. Hingga saat ini telah ribuan aplikasi

(56)

42

yang dikembangkan mengunakan RapidMiner di lebih dari 40 negara. RapidMiner sebagai software open source untuk data mining tidak perlu diragukan lagi karena software ini sudah terkemuka di dunia. RapidMiner menempati peringkat pertama sebagai Software data mining pada polling oleh KDnuggets, sebuah portal data- mining pada 2010-2011.

RapidMiner menyediakan GUI (Graphic User Interface) untuk merancang sebuah pipeline analitis. GUI ini akan menghasilkan file XML (Extensible Markup Language) yang mendefenisikan proses analitis keingginan pengguna untuk diterpkan ke data. File ini kemudian dibaca oleh RapidMiner untuk menjalankan analis secara otomatis.

RapidMiner memiliki beberapa sifat sebagai berikut:

a. Ditulis dengan siap pemrograman Java sehingga dapat dijalankan di berbagai sistem operasi.

b. Proses penemuan pengetahuan dimodelkan sebagai operator trees.

c. Representasi XML internal untuk memastikan format standar pertukaran data. d. Siap scripting memungkinkan untuk eksperimen skala besar dan otomatisasi

eksperimen.

e. Konsep multi-layer untuk menjamin tampilan data yang efisien dan menjamin penanganan data.

f. Memiliki GUI, command line mode, dan Java API yang dapat memanggil dari program lain.

(57)

Tool = Rapidminer Data = Trening

Metode = Algoritma naive bayes clasification

Exsperimen

a. Banyaknya algoritma data mining, seperti decision treee dan self-organization map.

b. Bentuk grafis yang canggih, seperti tumpang tindih diagram histogram, tree chart dan 3D Scatter plots.

c. Banyaknya variasi plu gin, seperti text plugin untuk melakukan analisis teks. d. Menyediakan prosedur data mining dan machine learning termasuk: ETL

(extraction, transformation, loading), data preprocessing, visualisasi, modelling dan evaluasi

e. Proses data mining tersusun atas operator-operator yang nestable, dideskrtidakikan dengan XML, dan dibuat dengan GUI.

f. Mengintegrasikan proyek data mining Weka dan statistika R. 2.6 Kerangka Pemikiran

Kerangka pikiran merupakan suatu bentuk proses dari keseluruhan bentuk proses penelitian, yang di perlukan oleh penulis untuk membuat suatu gambaran secara singkat sebagai alur dalam penyusunan laporan dengan kerangka pemikiran sebagai berikut:

Adanya pemilihan jenis pembayaran

Masalah

Tindakan

Menentukan jenis pembayaran yang digunakan

(58)

44

Gambar 2.3 Kerangka pikiran

Pengelompokan jenis pembayaran yang banyak digunakan

(59)

3.1 Objek Penelitian

3.2 Pengumpulan Data

(60)

BAB V

HASIL DAN PEMBAHASAN

4.1 Hasil

4.2 Pembahasan

(61)

5.1 Kesimpulan

Uraikan kesimpulan disini 5.2 Saran

Uraikan saran disini

(62)

DAFTAR PUSTAKA

Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). From data mining to

knowledge discovery in databases. AI Magazine, 37–54.

http://doi.org/10.1145/240455.240463

Witten, I. H., & Frank, E. (2011). Data Mining: Practical Machine Learning Tools and Techniques. Elsevier, San Francisco, 3 edition, 629. http://doi.org/0120884070, 9780120884070

Untuk membuat daftar pustaka atau melakukan sitasi, sebaiknya gunakan software mendeley, bisa di unduh di http://www.medeley.com

(63)

Template ini dibuat untuk memudahkan mahasiswa yang sedang akan/sedang menyusun naskah laporan Skripsi sehingga dapat sesuai dengan format penulisan yang sesuai. Penggunaan template ini sangatlah mudah, anda hanya tinggal mengganti teks yang ada disesuaikan dengan naskah yang anda buat dengan memperhatikan style atau formatting yang digunakan. Sebelum menggunakan template ini, sangat disarankan anda untuk mempelajari terlebih dahulu mengenai beberapa fasilitas yang ada pada MS Word seperti style and formatting dan reference sehingga dapat melakukan penyuntingan secara lebih efektif. Manfaatan fasilitas yang ada MS Word 2013 atau 2016 untuk membantu anda dalam mempelajari fasilitas tersebut di atas.

Beberapa keuntungan yang bisa diperoleh dengan menggunakan template ini antara lain konsistensi format penulisan pada keseluruhan naskah, kemudahan dalam pemberian judul beserta pengacuan tabel dan gambar, serta otomatisasi dalam pembuatan daftar isi, daftar tabel dan daftar gambar. Diharapkan dengan menggunakan template ini mahasiswa dapat menyusun naskah laporan TA dengan lebih efektif dan efisien, sekaligus juga dapat meningkatkan ketrampilan mahasiswa dalam menggunakan peranti lunak pengolah kata, khususnya MS Word. Jika terdapat pertanyaan ataupun masukan mengenai template ini dapat dikirimkan ke email: [email protected]. Telegram: @agung_n

Terimakasih.,semoga bermanfaat.

(64)

Gambar

Gambar 2.1 Tahapan Data
Gambar 2.2 CRISP-DM  Keterangan gambar :
Gambar 2.3 :  skema naive bayes
Tabel 2. Probabilitas Kriteria Jumlah Tanggungan  Jumlah
+7

Referensi

Dokumen terkait

Hal ini menunjukan bahwa cuka kayu dari Eucalyptus pellita mampu menghambat pertumbuhan bakteri Escherichia coli bakteri Gram negatif yang memiliki dinding sel yang

Keraf (2000, hal.14) menyatakan bahwa kata moral berasal dari bahasa Latin yaitu mos, dalam bentuk jamaknya yaitu mores, yang bisa diartikan sebagai kebiasaan atau adat

Maliha Fauziah, Ibadah, Doa dan Ama;an Pilihan Agar Punya Momongan Berkualitas, (Jogjakarta: Sabil, 2013), hal.. banyak kebaikan-kebaikan yang terjadi di hari Jum’at tersebut

Dalam proses pembuatan Augmented Reality yang pertama dilakukan adalah develop image target. Untuk membangun sebuah marker kita harus menemukan pattern dari image

Untuk negara-negara maju fungsi dan pemanfaatan jalur pedestrian atau trotoar sudah sangat jelas, yaitu sebagai jalur yang disediakan dan digunakan hanya untuk

Pada tahapan sistem dilakukan pengujian (testing) dan pemeliharaan, yang dapat digunakan untuk menentukan apakah system / perangkat lunak yang kita buat sudah sesuai dengan

Secara keseluruhan dari sistem alat ini perlu juga dilakukan riset yang lebih mendalam untuk mendeteksi kelainan fungsi pernafasan lain (asma) dari nilai variabel