DATA MINING
P E R T E M U A N - 2
Illham Faishal Mahdy, S.Stat., M.Stat.
DATA PREPROCESSING
Data Preprocessing
Data Preprocessing adalah tahapan awal dari proses analisis data. Proses ini melibatkan persiapan data sehingga siap untuk dianalisis dan membuat pemodelan. Dalam hal ini, kita harus menyiapkan dan mengubah data mentah dalam format yang mudah ditafsirkan dan digunakan.
PROGRAM STUDI SAINS DATA
Data Preprocessing
PROGRAM STUDI SAINS DATA
Data Preprocessing
Data diperoleh dari sumber daya yang berbeda, sebagian besar tidak cocok untuk dianalisis.
Ini mungkin terdiri dari nilai null, missing, dan kasus lainnya. Jika data ini secara langsung dimasukkan dalam proses analisis, dapat menyebabkan hasil yang bias dan kesimpulan yang salah yang tidak memiliki esensi. Oleh karena itu, Data Preprocessing menjadi langkah paling penting yang harus dipertimbangkan sebelum analisis data.
PROGRAM STUDI SAINS DATA
Manfaat Data Preprocessing
Mengurangi Noise
Data Preprocessing meminimalisir kesalahan dalam himpunan data, mengurangi noise yang dihasilkan oleh ketidakkonsistenan data. Hal ini juga memudahkan algoritma data mining untuk menemukan pola dalam himpunan data dan membuat prediksi yang akurat.
PROGRAM STUDI SAINS DATA
Manfaat Data Preprocessing
Menangani Data Kategorik
Algoritma Data Mining tertentu mengharuskan data dalam bentuk numerik, bukan kategorik.
Data Preprocessing memungkinkan data kategorik diubah ke dalam data numerik sehingga dapat digunakan.
PROGRAM STUDI SAINS DATA
Manfaat Data Preprocessing
Normalisasi Data
Data Preprocessing membantu menormalkan data sehingga data dapat diubah menjadi nilai skala yang disamakan. Hal ini akan memastikan tidak ada fitur yang memiliki skala yang jauh lebih besar dibanding yang lain selama langkah pemodelan.
PROGRAM STUDI SAINS DATA
Manfaat Data Preprocessing
Pengurangan Dimensi
Saat berhadapan dengan data yang berdimensi tinggi, perlu mengkaji fitur data yang tidak berkontribusi secara signifikan pada hasil analisis. Preprocessing Data dapat dilakukan dengan mengurangi fitur dan meningkatkan kinerja komputasi.
PROGRAM STUDI SAINS DATA
DATA INTEGRATION
Data Integration
Data mungkin ada di berbagai sumber dengan format yang berbeda. Untuk memahaminya secara komprehensif, kita dapat mengintegrasikan data.
Kita dapat menggabungkan semua data Anda ke dalam satu database. Namun, sebelum menggabungkan data dari sumber yang berbeda, kita harus memeriksa perbedaan dari data-data tersebut.
PROGRAM STUDI SAINS DATA
Data Integration
Integrasi dapat mengurangi redundansi dan inkonsistensi dalam data serta dapat meningkatkan keakuratan dan kecepatan pemrosesan data mining.
PROGRAM STUDI SAINS DATA
Redundancy
Redundancy merupakan masalah utama dalam data integrasi. Salah satu penyebabnya adalah ketidakkonsistenan dalam menamai variabel. Misalnya variabel untuk identifikasi pelanggan diberi nama id_pelanggan di suatu penyimpanan data dan identitas_pel di penyimpanan yang lain.
PROGRAM STUDI SAINS DATA
Redundancy
Suatu variabel dikatakan redundant jika variabel tersebut diperoleh dari variabel yang lainnya. Redundancy dapat dideteksi dengan menggunakan analisis korelasi. Nilai korelasi yang tinggi mengindikasikan bahwa A atau B dapat dihilangkan sebagai redundancy.
PROGRAM STUDI SAINS DATA
Redundansi
PROGRAM STUDI SAINS DATA
Redundansi
PROGRAM STUDI SAINS DATA
DATA CLEANING
Data Cleaning
Identifikasi dan penghapusan kesalahan atau inkonsistensi dalam himpunan data.
Kita dapat “membersihkan” data dengan menghapus inkonsistensi, seperti nilai null, anomali, dan nilai duplikat. Berbagai metode dapat diterapkan untuk membersihkan kumpulan data, termasuk penghapusan nilai secara langsung atau mengisi nilai dengan beberapa alternatif statistik.
PROGRAM STUDI SAINS DATA
Menangani Missing Value
Data dapat hilang dengan berbagai cara:
Hilang secara acak
Hilang secara sistematis.
Data hilang dapat disimbolkan dengan cara yang berbeda: '?', '-1', 'unknown', 'NA’, ...
Data hilang harus diselesaikan dengan cara imputasi.
Pemilihan metode imputasi tergantung pada sifat data, jumlah nilai yang hilang, dan konteks yang sedang dilakukan. Imputasi dapat mempengaruhi hasil akhir model, sehingga pemilihan metode harus dilakukan dengan hati-hati.
PROGRAM STUDI SAINS DATA
Imputation
Ganti semua nilai fitur yang hilang dengan nilai yang sama.
Fitur numerik: rata-rata atau median
Fitur kategorik: modus
PROGRAM STUDI SAINS DATA
Iterative Imputation
Melibatkan proses iteratif di mana nilai-nilai yang hilang diisi secara bertahap.
Pada setiap iterasi, model digunakan untuk memprediksi nilai-nilai yang hilang berdasarkan informasi yang telah diimputasi pada iterasi sebelumnya.
PROGRAM STUDI SAINS DATA
Iterative Imputation
import numpy as np import pandas as pd
from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer
df = pd.DataFrame({'A': [2, 3, 4, 5], 'B’: [4, 9, np.nan, 25]})
# Setting the random_state argument for reproducibility imputer = IterativeImputer(random_state=42)
imputed = imputer.fit_transform(df)
df_imputed = pd.DataFrame(imputed, columns=df.columns) round(df_imputed, 2)
PROGRAM STUDI SAINS DATA
Data Cleaning
• Menangani Duplikat: Teknik ini melibatkan identifikasi dan penghapusan data duplikat dalam dataset. Duplikat dapat mengganggu analisis dengan menghasilkan hasil yang tidak akurat.
• Penanganan Data Tidak Konsisten: Ini mencakup penanganan data yang tidak konsisten pada atribut tertentu, seperti format tanggal yang bervariasi, kode pos yang tidak konsisten, atau penulisan yang berbeda untuk nilai yang sama.
PROGRAM STUDI SAINS DATA
Data Cleaning
• Validasi Data: Ini melibatkan pemeriksaan data untuk memastikan bahwa data memenuhi batasan atau aturan yang telah ditetapkan, seperti nilai pada rentang tertentu atau format yang benar.
• Penanganan Outlier: Outlier adalah data yang sangat berbeda dengan nilai-nilai lain dalam data. Teknik penanganan outlier melibatkan identifikasi dan tindakan yang sesuai terhadap outlier.
PROGRAM STUDI SAINS DATA
Menangani Outlier
Identifikasi Outlier:
Visualisasi menggunakan Box Plot.
Metode statistik seperti Interquartile Range.
Strategi Penanganan Outlier:
Transformasi Data.
Menggunakan metode yang robust terhadap outlier.
PROGRAM STUDI SAINS DATA
THANK YOU
Illham Faishal Mahdy, S.Stat., M.Stat.