• Tidak ada hasil yang ditemukan

Pengantar Data Preprocessing dalam Analisis Data

N/A
N/A
Ilham Faishal

Academic year: 2025

Membagikan "Pengantar Data Preprocessing dalam Analisis Data"

Copied!
26
0
0

Teks penuh

(1)

DATA MINING

P E R T E M U A N - 2

Illham Faishal Mahdy, S.Stat., M.Stat.

(2)

DATA PREPROCESSING

(3)

Data Preprocessing

Data Preprocessing adalah tahapan awal dari proses analisis data. Proses ini melibatkan persiapan data sehingga siap untuk dianalisis dan membuat pemodelan. Dalam hal ini, kita harus menyiapkan dan mengubah data mentah dalam format yang mudah ditafsirkan dan digunakan.

PROGRAM STUDI SAINS DATA

(4)

Data Preprocessing

PROGRAM STUDI SAINS DATA

(5)

Data Preprocessing

Data diperoleh dari sumber daya yang berbeda, sebagian besar tidak cocok untuk dianalisis.

Ini mungkin terdiri dari nilai null, missing, dan kasus lainnya. Jika data ini secara langsung dimasukkan dalam proses analisis, dapat menyebabkan hasil yang bias dan kesimpulan yang salah yang tidak memiliki esensi. Oleh karena itu, Data Preprocessing menjadi langkah paling penting yang harus dipertimbangkan sebelum analisis data.

PROGRAM STUDI SAINS DATA

(6)

Manfaat Data Preprocessing

Mengurangi Noise

Data Preprocessing meminimalisir kesalahan dalam himpunan data, mengurangi noise yang dihasilkan oleh ketidakkonsistenan data. Hal ini juga memudahkan algoritma data mining untuk menemukan pola dalam himpunan data dan membuat prediksi yang akurat.

PROGRAM STUDI SAINS DATA

(7)

Manfaat Data Preprocessing

Menangani Data Kategorik

Algoritma Data Mining tertentu mengharuskan data dalam bentuk numerik, bukan kategorik.

Data Preprocessing memungkinkan data kategorik diubah ke dalam data numerik sehingga dapat digunakan.

PROGRAM STUDI SAINS DATA

(8)

Manfaat Data Preprocessing

Normalisasi Data

Data Preprocessing membantu menormalkan data sehingga data dapat diubah menjadi nilai skala yang disamakan. Hal ini akan memastikan tidak ada fitur yang memiliki skala yang jauh lebih besar dibanding yang lain selama langkah pemodelan.

PROGRAM STUDI SAINS DATA

(9)

Manfaat Data Preprocessing

Pengurangan Dimensi

Saat berhadapan dengan data yang berdimensi tinggi, perlu mengkaji fitur data yang tidak berkontribusi secara signifikan pada hasil analisis. Preprocessing Data dapat dilakukan dengan mengurangi fitur dan meningkatkan kinerja komputasi.

PROGRAM STUDI SAINS DATA

(10)

DATA INTEGRATION

(11)

Data Integration

Data mungkin ada di berbagai sumber dengan format yang berbeda. Untuk memahaminya secara komprehensif, kita dapat mengintegrasikan data.

Kita dapat menggabungkan semua data Anda ke dalam satu database. Namun, sebelum menggabungkan data dari sumber yang berbeda, kita harus memeriksa perbedaan dari data-data tersebut.

PROGRAM STUDI SAINS DATA

(12)

Data Integration

Integrasi dapat mengurangi redundansi dan inkonsistensi dalam data serta dapat meningkatkan keakuratan dan kecepatan pemrosesan data mining.

PROGRAM STUDI SAINS DATA

(13)

Redundancy

Redundancy merupakan masalah utama dalam data integrasi. Salah satu penyebabnya adalah ketidakkonsistenan dalam menamai variabel. Misalnya variabel untuk identifikasi pelanggan diberi nama id_pelanggan di suatu penyimpanan data dan identitas_pel di penyimpanan yang lain.

PROGRAM STUDI SAINS DATA

(14)

Redundancy

Suatu variabel dikatakan redundant jika variabel tersebut diperoleh dari variabel yang lainnya. Redundancy dapat dideteksi dengan menggunakan analisis korelasi. Nilai korelasi yang tinggi mengindikasikan bahwa A atau B dapat dihilangkan sebagai redundancy.

PROGRAM STUDI SAINS DATA

(15)

Redundansi

 

PROGRAM STUDI SAINS DATA

(16)

Redundansi

 

PROGRAM STUDI SAINS DATA

(17)

DATA CLEANING

(18)

Data Cleaning

Identifikasi dan penghapusan kesalahan atau inkonsistensi dalam himpunan data.

Kita dapat “membersihkan” data dengan menghapus inkonsistensi, seperti nilai null, anomali, dan nilai duplikat. Berbagai metode dapat diterapkan untuk membersihkan kumpulan data, termasuk penghapusan nilai secara langsung atau mengisi nilai dengan beberapa alternatif statistik.

PROGRAM STUDI SAINS DATA

(19)

Menangani Missing Value

Data dapat hilang dengan berbagai cara:

Hilang secara acak

Hilang secara sistematis.

Data hilang dapat disimbolkan dengan cara yang berbeda: '?', '-1', 'unknown', 'NA’, ...

Data hilang harus diselesaikan dengan cara imputasi.

Pemilihan metode imputasi tergantung pada sifat data, jumlah nilai yang hilang, dan konteks yang sedang dilakukan. Imputasi dapat mempengaruhi hasil akhir model, sehingga pemilihan metode harus dilakukan dengan hati-hati.

PROGRAM STUDI SAINS DATA

(20)

Imputation

Ganti semua nilai fitur yang hilang dengan nilai yang sama.

Fitur numerik: rata-rata atau median

Fitur kategorik: modus

PROGRAM STUDI SAINS DATA

(21)

Iterative Imputation

Melibatkan proses iteratif di mana nilai-nilai yang hilang diisi secara bertahap.

Pada setiap iterasi, model digunakan untuk memprediksi nilai-nilai yang hilang berdasarkan informasi yang telah diimputasi pada iterasi sebelumnya.

PROGRAM STUDI SAINS DATA

(22)

Iterative Imputation

import numpy as np import pandas as pd

from sklearn.experimental import enable_iterative_imputer from sklearn.impute import IterativeImputer

df = pd.DataFrame({'A': [2, 3, 4, 5], 'B’: [4, 9, np.nan, 25]})

# Setting the random_state argument for reproducibility imputer = IterativeImputer(random_state=42)

imputed = imputer.fit_transform(df)

df_imputed = pd.DataFrame(imputed, columns=df.columns) round(df_imputed, 2)

PROGRAM STUDI SAINS DATA

(23)

Data Cleaning

• Menangani Duplikat: Teknik ini melibatkan identifikasi dan penghapusan data duplikat dalam dataset. Duplikat dapat mengganggu analisis dengan menghasilkan hasil yang tidak akurat.

• Penanganan Data Tidak Konsisten: Ini mencakup penanganan data yang tidak konsisten pada atribut tertentu, seperti format tanggal yang bervariasi, kode pos yang tidak konsisten, atau penulisan yang berbeda untuk nilai yang sama.

PROGRAM STUDI SAINS DATA

(24)

Data Cleaning

• Validasi Data: Ini melibatkan pemeriksaan data untuk memastikan bahwa data memenuhi batasan atau aturan yang telah ditetapkan, seperti nilai pada rentang tertentu atau format yang benar.

• Penanganan Outlier: Outlier adalah data yang sangat berbeda dengan nilai-nilai lain dalam data. Teknik penanganan outlier melibatkan identifikasi dan tindakan yang sesuai terhadap outlier.

PROGRAM STUDI SAINS DATA

(25)

Menangani Outlier

Identifikasi Outlier:

Visualisasi menggunakan Box Plot.

Metode statistik seperti Interquartile Range.

Strategi Penanganan Outlier:

Transformasi Data.

Menggunakan metode yang robust terhadap outlier.

PROGRAM STUDI SAINS DATA

(26)

THANK YOU

Illham Faishal Mahdy, S.Stat., M.Stat.

Referensi

Dokumen terkait

Setelah melalui seluruh tahap pada data preprocessing tersebut, content e-mail yang akan menjadi data mentah bagi aplikasi web mining yang dikembangkan telah siap

Setelah melalui beberapa ujicoba diketahui bahwa dengan preprocessing data serta pemilihan representasi yang tidak tepat akan menurunkan hasil dari algoritma symbiotic

Metode penelitian yang dilakukan melalui tahapan penelitian yang terbagi dalam 7 tahapan, yaitu : 1) Pengambilan Sampel, 2) Preprocessing Data, 3) Training Data dan Testing

Tahapan berikutnya pada Preprocessing adalah Data Reduction yang bertujuan untuk mengurangi load algoritma sehingga pengetahuan bisa didapatkan dengan lebih cepat

Definisi Feature Engineering Feature Engineering FE adalah langkah preprocessing dalam machine learning yang digunakan untuk mengubah data mentah menjadi fitur yang dapat digunakan

Data Layer Data Sources Online Banking Social Media Patient Records Point of sales Semi-Structured Data Data Format Structured Data Data preprocessing Data Acquisition Analytics

Data Mining merupakan salah satu proses, maka dipecah beberapa tahapan yaitu koleksi data, seleksi data, preprocessing, transformasi data, Data Mining yang akan digunakan adalah

For the Glory of the Nation Tahapan dalam Data Preprocessing • Data cleaning • Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier • Data