BAB IV DATA MINING
A. Pengertian dan Konsep Data Mining
Data mining merupakan proses pencarian suatu pola-pola yang menarik dan tersembunyi (hidden pattern) dari suatu kumpulan data yang berukuran sangat besar yang tersimpan di dalam suatu basis data, data warehouse, atau tempat penyimpanan data lainnya (Larose, 2005). Secara umum, data mining juga adalah cara untuk mengembangkan kecerdasan (yaitu, dapat ditindaklanjuti informasi atau pengetahuan) dari data yang dikumpulkan, diorganisir, dan disimpan oleh organisasi. Data mining juga merupakan proses mengekstraksi dan menemukan pola dalam suatu kumpulan data (datasets) besar yang melibatkan metode machine learning, statistik, dan sistem database.
Berbagai macam teknik data mining digunakan oleh organisasi untuk mendapatkan pemahaman yang lebih baik tentang pelanggan dan operasi mereka dan untuk memecahkan masalah yang kompleks. (Sharda, 2018). Data mining adalah sub-bidang interdisipliner dari computer science dan statistik dengan tujuan keseluruhan untuk mengekstraksi informasi dari kumpulan data dan mengubah informasi menjadi struktur yang dapat dipahami untuk digunakan lebih lanjut. Data mining adalah langkah analisis dari proses “Knowledge Discovery in Databases” atau KDD.
Selain langkah analisis dasar, data mining juga melibatkan aspek database dan manajemen data, data pre-processing, model dan inference considerations, interestingness metric, complexity considerations, post-processing of discovered structures, visualisation, dan online updating.
Didefinisikan secara sederhana, data mining adalah istilah yang digunakan untuk menggambarkan pengetahuan yang ditemukan atau "ditambang" dari data dalam jumlah besar. Jika dipikirkan dengan analogi, orang dapat dengan mudah menyadari
bahwa istilah data mining adalah istilah yang keliru; yaitu, menambang emas dari dalam bebatuan atau tanah disebut sebagai penambangan "emas" dari pada penambangan "batu" atau "tanah".
Karena itu, data mining mungkin seharusnya diberi nama
"penambangan pengetahuan" atau "penemuan pengetahuan".
Meskipun ketidaksesuaian antara istilah dan maknanya, data mining menjadi pilihan komunitas. Banyak nama lain yang terkait dengan data mining termasuk knowledge extraction, pattern analysis, data archaeology, information harvesting, pattern searching, dan data dredging.
Menurut Gartner Group dan Turban, dkk (2005), data mining adalah suatu proses menemukan hubungan yang berarti, pola, dan kecenderungan dengan memeriksa dalam sekumpulan besar data yang tersimpan di dalam penyimpanan dengan menggunakan teknik pengenalan pola seperti teknik statistic dan matematika yang digunakan untuk menguraikan penemuan pengetahuan di dalam suatu database.
Secara teknis, data mining juga merupakan proses yang menggunakan teknik-teknik statistika, matematika, dan teknik kecerdasan buatan (artificial intelligence) untuk mengekstrak dan mengidentifikasi informasi yang berguna dan selanjutnya pengetahuan (atau pola) dari kumpulan data yang besar. Pola ini bisa dalam bentuk aturan bisnis, afinitas, korelasi, tren, atau model prediksi. Kebanyakan literatur mendefinisikan data mining sebagai
“proses nontrivial dalam mengidentifikasi pola yang valid, baru, berpotensi berguna, dan pada akhirnya dapat dipahami dalam data yang disimpan di database terstruktur”, di mana data diatur dalam catatan yang terstruktur menurut kategorikal, variabel ordinal, dan kontinu. Dalam definisi ini, arti dari istilah kuncinya adalah sebagai berikut :
1. Proses menyiratkan bahwa data mining terdiri dari banyak langkah iteratif.
2. Nontrivial berarti bahwa beberapa pencarian atau inferensi tipe eksperimen terlibat; Artinya, ini tidak semudah menghitung besaran yang telah ditentukan sebelumnya.
3. Valid artinya pola yang ditemukan harus benar pada data baru dengan tingkat kepastian yang cukup.
4. Novel berarti bahwa pola sebelumnya tidak diketahui oleh pengguna dalam konteksnya dari sistem yang sedang dianalisis.
5. Potentially useful berarti secara potensial berguna bahwa pola yang ditemukan harus membawa beberapa keuntungan pengguna atau tugas.
6. Ultimately understandable berarti bahwa pola tersebut harus masuk akal secara bisnis yang mengarah ke kata-kata pengguna seperti, “Mmm! Masuk akal; kenapa aku tidak memikirkannya”, jika tidak segera, setidaknya setelah beberapa saat.
Sumber : Larose, 2005
Gambar 4.1. Bidang Ilmu Data Mining
Tugas data mining sebenarnya adalah analisis semi- otomatis atau otomatis dari sejumlah besar data untuk mengekplorasi pola yang sebelumnya tidak diketahui, seperti kelompok catatan data (cluster analysis), unusual records (anomaly detection), dan dependensi (association rule mining, sequential pattern mining). Pola-pola ini kemudian dapat dilihat sebagai semacam ringkasan input data, dan dapat digunakan dalam
analisis lebih lanjut, atau misalnya dalam machine learning dan analisis prediktif. Misalnya, langkah data mining mungkin mengidentifikasi beberapa kelompok dalam data, yang kemudian dapat digunakan untuk mendapatkan hasil prediksi yang lebih akurat oleh “sistem pendukung keputusan”. Pengumpulan data, persiapan data, maupun interprestasi dan pelaporan hasil bukanlah bagian dari langkah data mining, tetapi termasuk dalam proses KDD secara keseluruhan sebagai langkah tambahan.
Perbedaan antara analisis data dan data mining adalah bahwa analisis data digunakan untuk menguji model dan hipotesis pada dataset, misalnya menganalisis efektivitas kampanye pemasaran, berapapun jumlah datanya, sebaliknya data mining menggunakan machine learning dan model statistik untuk mengungkap hidden pattern dari volume data yang besar.
Istilah terkait data dredging, data fishing, dan data snooping mengacu pada penggunaan metode data mining untuk mengambil sampel bagian dari kumpulan data dengan jumlah yang lebih besar aau mungkin terlalu kecil untuk membuat kesimpulan statistik yang handal tentang validitas dari setiap pola ditemukan.
Metode ini dapat digunakan dalam membuat hipotesis baru untuk menguji jumlah data yang lebih besar.
Data mining bukanlah suatu bidang ilmu yang baru, melainkan definisi baru untuk digunakan banyak disiplin ilmu.
Salah satu kesulitan untuk mengidentifikasi data mining adalah kenyataan bahwasanya data mining mewarisi banyak aspek dan teknik di bidang-bidang ilmu yang sudah mapan terlebih dahulu.
Data mining diposisikan secara ketat di banyak persimpangan disiplin ilmu, termasuk artificial intelligence (kecerdasan buatan), machine learning, statistics, databases, dan information retrieval.
Menggunakan kemajuan dalam semua disiplin ilmu ini, data mining berusaha untuk membuat kemajuan dalam mengekstraksi informasi dan pengetahuan yang berguna dari database yang besar.
Ini adalah bidang baru yang telah menarik banyak perhatian dalam waktu yang sangat singkat. Berikut ini adalah karakteristik dan tujuan utama dari data mining :
1. Data sering kali terkubur jauh di dalam database yang sangat besar dan terkadang berisi data dari beberapa tahun.
Dalam banyak kasus, data dibersihkan dan digabungkan menjadi gudang data dan data juga dapat disajikan dalam berbagai bentuk format.
2. Lingkungan data mining biasanya merupakan arsitektur klien/server atau berbasis Arsitektur Sistem Informasi Berbasis web.
3. Tools baru yang canggih, termasuk alat visualisasi lanjutan, dapat membantu menghapus bijih informasi yang terkubur dalam file perusahaan atau arsip catatan publik.
Istilah data mining dan knowledge discovery in databases (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi di dalam suatu basis data yang besar. Sebenarnya kedua istilah tersebut memiliki konsep yang berbeda, tetapi berkaitan satu sama lain. Salah satu tahapan dalam keseluruhan proses KDD adalah data mining. Proses KDD secara garis besar dapat dijelaskan sebagai berikut :
1. Data Selection
Pemilihan (seleksi) data dari sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/Cleaning
Sebelum masuk ke tahap proses data mining, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.
Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkosisten dan memperbaiki kesalahan data, seperti kesalahan cetak (tipografi) dan juga dilakukan proses enrichment, yaitu proses “memperkaya” data yang sudah ada
dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining.
Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data.
4. Data Mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesis yang ada sebelumnya.
Data mining dibagi menjadi beberapa kelompok berdasarkan tugas yang dapat dilakukan yaitu (Larose, 2005) :
• Deskripsi
Terkadang peneliti dan analis secara sederhana ingin mencoba mencari cara untuk menggambarkan pola dan kecenderungan yang terdapat dalam data.
• Estimasi
Estimasi hampir sama dengan klasifikasi, kecuali variabel terget estimasi lebih ke arah numeric dari pada ke arah kategori.
• Prediksi
Prediksi hampir sama dengan klasifikasi dan estimasi, kecuali bahwa dalam prediksi nilai dari hasil akan ada dimasa mendatang.
• Klasifikasi
Dalam klasifikasi, terdapat target variabel kategori. Sebagai contoh, penggolongan pendapatan dapat dipisahkan dalam tiga kategori, yaitu pendapatan tinggi, sedang dan rendah.
• Pengklasteran
Pengklasteran merupakan pengelompokan dari record, pengamatan, atau memperhatikan dan membentuk kelas objek- objek yang memiliki kemiripan. Klaster adalah kumpulan record yang memiliki kemiripan satu dengan yang lainnya dan memiliki ketidakmiripan dengan record-record dalam klaster lain.
• Asosiasi
Tugas asosiasi dalam data mining adalah menentukan atribut yang muncul dalam satu waktu. Dalam dunia bisnis lebih umum disebut dengan analisis keranjang belanja (market basket analysis).
Selain itu terdapat beberapa metode-metode algoritma yang dapat digunakan berdasarkan pengelompokan data mining seperti pada Gambar 5.2. berikut :
Sumber : Ridwan, 2013
Gambar 4.2. Metode-Metode Algoritma Data Mining