Pengantar Data Preprocessing dalam Analisis Data

(1)

DATA MINING

P E R T E M U A N - 2

Illham Faishal Mahdy, S.Stat., M.Stat.

(2)

DATA PREPROCESSING

(3)

Data Preprocessing

Data Preprocessing adalah tahapan awal dari proses analisis data. Proses ini melibatkan persiapan data sehingga siap untuk dianalisis dan membuat pemodelan. Dalam hal ini, kita harus menyiapkan dan mengubah data mentah dalam format yang mudah ditafsirkan dan digunakan.

PROGRAM STUDI SAINS DATA

(4)

Data Preprocessing

(5)

Data Preprocessing

Data diperoleh dari sumber daya yang berbeda, sebagian besar tidak cocok untuk dianalisis.

Ini mungkin terdiri dari nilai null, missing, dan kasus lainnya. Jika data ini secara langsung dimasukkan dalam proses analisis, dapat menyebabkan hasil yang bias dan kesimpulan yang salah yang tidak memiliki esensi. Oleh karena itu, Data Preprocessing menjadi langkah paling penting yang harus dipertimbangkan sebelum analisis data.

(6)

Manfaat Data Preprocessing

 Mengurangi Noise

Data Preprocessing meminimalisir kesalahan dalam himpunan data, mengurangi noise yang dihasilkan oleh ketidakkonsistenan data. Hal ini juga memudahkan algoritma data mining untuk menemukan pola dalam himpunan data dan membuat prediksi yang akurat.

(7)

Manfaat Data Preprocessing

 Menangani Data Kategorik

Algoritma Data Mining tertentu mengharuskan data dalam bentuk numerik, bukan kategorik.

Data Preprocessing memungkinkan data kategorik diubah ke dalam data numerik sehingga dapat digunakan.

(8)

Manfaat Data Preprocessing

 Normalisasi Data

Data Preprocessing membantu menormalkan data sehingga data dapat diubah menjadi nilai skala yang disamakan. Hal ini akan memastikan tidak ada fitur yang memiliki skala yang jauh lebih besar dibanding yang lain selama langkah pemodelan.

(9)

Manfaat Data Preprocessing

 Pengurangan Dimensi

Saat berhadapan dengan data yang berdimensi tinggi, perlu mengkaji fitur data yang tidak berkontribusi secara signifikan pada hasil analisis. Preprocessing Data dapat dilakukan dengan mengurangi fitur dan meningkatkan kinerja komputasi.

(10)

DATA INTEGRATION

(11)

Data Integration

 Data mungkin ada di berbagai sumber dengan format yang berbeda. Untuk memahaminya secara komprehensif, kita dapat mengintegrasikan data.

 Kita dapat menggabungkan semua data Anda ke dalam satu database. Namun, sebelum menggabungkan data dari sumber yang berbeda, kita harus memeriksa perbedaan dari data-data tersebut.

(12)

Data Integration

Integrasi dapat mengurangi redundansi dan inkonsistensi dalam data serta dapat meningkatkan keakuratan dan kecepatan pemrosesan data mining.

(13)

Redundancy

Redundancy merupakan masalah utama dalam data integrasi. Salah satu penyebabnya adalah ketidakkonsistenan dalam menamai variabel. Misalnya variabel untuk identifikasi pelanggan diberi nama id_pelanggan di suatu penyimpanan data dan identitas_pel di penyimpanan yang lain.

(14)

Redundancy

Suatu variabel dikatakan redundant jika variabel tersebut diperoleh dari variabel yang lainnya. Redundancy dapat dideteksi dengan menggunakan analisis korelasi. Nilai korelasi yang tinggi mengindikasikan bahwa A atau B dapat dihilangkan sebagai redundancy.

(15)

Redundansi

(16)

Redundansi

(17)

DATA CLEANING

(18)

Data Cleaning

 Identifikasi dan penghapusan kesalahan atau inkonsistensi dalam himpunan data.

 Kita dapat “membersihkan” data dengan menghapus inkonsistensi, seperti nilai null, anomali, dan nilai duplikat. Berbagai metode dapat diterapkan untuk membersihkan kumpulan data, termasuk penghapusan nilai secara langsung atau mengisi nilai dengan beberapa alternatif statistik.

(19)

Menangani Missing Value

 Data dapat hilang dengan berbagai cara:

 Hilang secara acak

 Hilang secara sistematis.

 Data hilang dapat disimbolkan dengan cara yang berbeda: '?', '-1', 'unknown', 'NA’, ...

 Data hilang harus diselesaikan dengan cara imputasi.

 Pemilihan metode imputasi tergantung pada sifat data, jumlah nilai yang hilang, dan konteks yang sedang dilakukan. Imputasi dapat mempengaruhi hasil akhir model, sehingga pemilihan metode harus dilakukan dengan hati-hati.

(20)

Imputation

 Ganti semua nilai fitur yang hilang dengan nilai yang sama.

 Fitur numerik: rata-rata atau median

 Fitur kategorik: modus

(21)

Iterative Imputation

 Melibatkan proses iteratif di mana nilai-nilai yang hilang diisi secara bertahap.

 Pada setiap iterasi, model digunakan untuk memprediksi nilai-nilai yang hilang berdasarkan informasi yang telah diimputasi pada iterasi sebelumnya.

(22)

Iterative Imputation

import numpy as np import pandas as pd

from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer

df = pd.DataFrame({'A': [2, 3, 4, 5], 'B’: [4, 9, np.nan, 25]})

# Setting the random_state argument for reproducibility imputer = IterativeImputer(random_state=42)

imputed = imputer.fit_transform(df)

df_imputed = pd.DataFrame(imputed, columns=df.columns) round(df_imputed, 2)

(23)

Data Cleaning

• Menangani Duplikat: Teknik ini melibatkan identifikasi dan penghapusan data duplikat dalam dataset. Duplikat dapat mengganggu analisis dengan menghasilkan hasil yang tidak akurat.

• Penanganan Data Tidak Konsisten: Ini mencakup penanganan data yang tidak konsisten pada atribut tertentu, seperti format tanggal yang bervariasi, kode pos yang tidak konsisten, atau penulisan yang berbeda untuk nilai yang sama.

(24)

Data Cleaning

• Validasi Data: Ini melibatkan pemeriksaan data untuk memastikan bahwa data memenuhi batasan atau aturan yang telah ditetapkan, seperti nilai pada rentang tertentu atau format yang benar.

• Penanganan Outlier: Outlier adalah data yang sangat berbeda dengan nilai-nilai lain dalam data. Teknik penanganan outlier melibatkan identifikasi dan tindakan yang sesuai terhadap outlier.

(25)

Menangani Outlier

 Identifikasi Outlier:

 Visualisasi menggunakan Box Plot.

 Metode statistik seperti Interquartile Range.

 Strategi Penanganan Outlier:

 Transformasi Data.

 Menggunakan metode yang robust terhadap outlier.

(26)

THANK YOU

Illham Faishal Mahdy, S.Stat., M.Stat.