PENAMBANGAN DATA OPENCOURSEWARE UNIVERSITAS PEMBANGUNAN JAYA Handout TIF311 DM 3

(1)

(2)

Data Preprocessing

Pembersihan data

Diskritisasi dan pembuatan

Integrasi dan transformasi data

Reduksi data

(3)

• _{Data dalam dunia nyata kotor}

• _Tak-lengkap:_{nilai-nilai atribut kurang, atribut tertentu yang}

dipentingkan tidak disertakan, atau hanya memuat data agregasi

• _{Misal, pekerjaan=“”}

• _Noisy_{: memuat error atau memuat outliers (data yang}

secara nyata berbeda dengan data-data yang lain)

• _{Misal, Salary=“-10”}

(4)

• _{Tak-konsisten}_{: memuat perbedaan dalam kode atau nama}

• _{Misal, Age=“42” Birthday=“03/07/1997”}

• _{Misal, rating sebelumnya “1,2,3”, sekarang rating}

“A, B, C”

• _{Misal, perbedaan antara duplikasi record}

• _{Data yang lebih baik akan menghasilkan data mining}

yang lebih baik

• _{Data preprocessing membantu didalam memperbaiki}

presisi dan kinerja data mining dan mencegah

(5)

• _{Ketaklengkapan data datang dari}

• _{Nilai data tidak tersedia saat dikumpulkan}

• _{Perbedaan pertimbangan waktu antara saat data}

dikumpulkan dan saat data dianalisa.

• _{Masalah manusia, hardware, dan software}

• _{Noisy data datang dari proses data}

• _Pengumpulan

• _{Pemasukan (entry)} • _Transmisi

(6)

• _{Ketak-konsistenan data datang dari}

• _{Sumber data yang berbeda}

• _{Pelanggaran kebergantungan fungsional}

(7)

Mengapa

Pemrosesan Awal Data Penting?

• _{Kualitas data tidak ada, kualitas hasil mining tidak}

ada!

–

_{Kualitas keputusan harus didasarkan kepada}

kualitas data

• _{Misal, duplikasi data atau data hilang bisa}

menyebabkan ketidak-benaran atau bahkan

statistik yang menyesatkan.

–

_{Data warehouse memerlukan kualitas integrasi data}

yang konsisten

• _{Ekstraksi data, pembersihan, dan transformasi}

(8)

Pengukuran Kualitas Data

Multidimesi

• _{Kualitas data dapat diakses dalam bentuk:}

–

_Akurasi

–

_Kelengkapan

–

_Konsistensi

–

_{Ketepatan waktu}

–

_Kepercayaan

–

_{Nilai tambah}

–

_Penafsiran

–

_{Kemudahan diakses}

(9)

Tugas Utama

Pemrosesan Awal Data

• _{Pembersihan data (data yang kotor)}

–

_{Mengisi nilai-nilai yang hilang,}

menghaluskan noisy data, mengenali atau

menghilangkan outlier, dan memecahkan

ketak-konsistenan

• _{Integrasi data (data heterogen)}

–

_{Integrasi banyak database, banyak kubus}

data, atau banyak file

(10)

Tugas Utama

Pemrosesan Awal Data

• _{Reduksi data (jumlah data yang besar)}

–

_{Mendapatkan representasi yang direduksi}

dalam volume tetapi menghasilkan hasil

analitikal yang sama atau mirip

• _{Diskritisasi data (kesinambungan atribut)}

–

_{Bagian dari reduksi data tetapi dengan}

(11)

Bentuk-Bentuk Dari

Pemrosesan Awal Data

Pembersihan Data

Integrasi Data

Transformasi Data

Reduksi Data

(12)

• _{Memperbaiki ketak-konsitenan data, US=USA?}

• _{Menggunakan rujukan eksternal}

• _{Mendeteksi pelanggaran kendala}

(13)

• _{Data tidak selalu tersedia}

• _{Misal, banyak tuple atau record tidak memiliki nilai yang}

tercatat untuk beberapa atribut, seperti customer income dalam data sales

• _{Hilangnya data bisa karena}

• _{Kegagalan pemakaian peralatan}

• _{Ketak-konsistenan dengan data tercatat lainnya dan}

karenanya dihapus

• _{Data tidak dimasukkan karena salah pengertian}

• _{Data tertentu bisa tidak dipandang penting pada saat entry} • _{Tidak mencatat history atau tidak mencatat perubahan data} • _{kehilangan data perlu disimpulkan}

(14)

• _{Mengabaikan tuple atau record: mudah tetapi tidak}

efektif, dan merupakan metoda terakhir

• _{Biasanya dilakukan saat label kelas hilang}

• _{Tidak efektif bila persentasi dari nilai-nilai yang hilang per}

atribut sungguh-sungguh bervariasi.

• _{Mengisi nilai-nilai yang hilang secara manual:}

• _{Paling baik}

• _Membosankan

• _{Paling mahal biayanya}

• _{Tak mungkin dilakukan dalam banyak hal!}

(15)

• _{Mengisi nilai-nilai yang hilang secara otomatis}

menggunakan:

• _{Suatu konstanta global: misal, “unknown”, “Null”, atau suatu}

kelas baru?!

• _{Suatu pola yang memuat “unknown” atau “Null”}

adalah buruk

• _{Gunakan rata-rata atribut}

• _{Pengempisan data ke mean/median}

• _{Rata-rata atribut untuk seluruh sampel yang masuk kedalam}

kelas yang sama

• _{Lebih cerdas, dan suatu metoda yang baik}

(16)

• _{Nilai yang paling mungkin: berbasis inferensi seperti regresi,}

rumus bayesian, atau pohon keputusan

• _{Klasifikasi untuk mendapatkan nilai yang paling}

mungkin

• _{Suatu metoda yang baik dengan beberapa}

overhead

• _{Menggunakan suatu nilai untuk mengisi nilai yang hilang}

bisa membiaskan data, nilai bisa salah

• _{Nilai yang paling mungkin adalah yang terbaik}

• _{Gunakan informasi yang paling banyak dari data yang ada}

untuk memprediksi

(17)

• _{Noise: error acak atau variansi dalam suatu variabel}

terukur

• _{Nilai-nilai atribut tak benar mungkin karena}

• _{Kegagalan instrumen pengumpulan data} • _{Problem pemasukan data}

• _{Problem transmisi data} • _{Keterbatasan teknologi}

• _{Ketak-konsistenan dalam konvensi penamaan}

• _{Problem data lainnya yang memerlukan pembersihan}

data

• _{Duplikasi record} • _{Data tak lengkap}

• _{Data tidak konsisten}

(18)

(19)

Noisy Data: Penghalusan

x y

X1 Y1

(20)

• _{Metoda Binning:}

• _{Pertama urutkan data dan partisi kedalam (kedalaman yang}

sama) bin-bin

• _{Kemudian noisy data itu bisa dihaluskan dengan rata-rata bin,}

median bin, atau batas bin.

• _Clustering

• _{Medeteksi dan membuang outliers}

• _{Inspeksi kombinasi komputer dan manusia}

• _{Mendeteksi nilai-nilai yang mencurigakan dan memeriksa}

dengan manusia(misal, berurusan dengan outlier yang mungkin)

• _Regresi

(21)

• _Partisi

_{lebar yang sama}

_(jarak):

• _{Membagi range kedalam N interval dengan ukuran}

yang sama: grid seragam

• _Jika_A_dan_B_{masing-masing adalah nilai terendah dan}

tertinggi dari atribut, lebar interval akan menjadi : W = (B –A)/N.

• _{Kebanyakan langsung, tetapi outlier mendominasi}

presentasi

• _{Data Outlier dan menyimpang tidak ditangani dengan}

baik.

Metoda Binning:

(22)

• _Partisi

_{kedalaman sama}

_(frekuensi):

• _{Membagi range kedalam}_N_{interval, masing-masing memuat}

jumlah sampel yang hampir sama

• _{Penskalaan data yang baik}

• _{Penanganan atribut yang bersifat kategori bisa rumit.}

Metoda Binning:

(23)

• _{Data terurut untuk harga (dalam dollar): 4, 8, 9, 15, 21,}

21, 24, 25, 26, 28, 29, 34

• _{Partisi kedalam bin dengan kedalaman yang sama}

(misal, dalam bin-3):

- Bin 1: 4, 8, 9, 15

- Bin 2: 21, 21, 24, 25

- Bin 3: 26, 28, 29, 34

• _{Haluskan dengan rata-rata bins:}

- Bin 1: 9, 9, 9, 9

- Bin 2: 23, 23, 23, 23

Metoda Binning

(24)

• _{Penghalusan dengan batas bin:}

- Bin 1: 4, 4, 4, 15

- Bin 2: 21, 21, 25, 25

- Bin 3: 26, 26, 26, 34

Metoda Binning

(25)

(26)

Regresi

x y

y = x + 1

X1 Y1

(27)

• _{Inspeksi kombinasi komputer dan manusia}

• _{Suatu ambang yang diberikan user}

• _{Komputer mendeteksi seluruh potensi outlier yang dikaitkan}

dengan ambang

• _{Manusia menentukan outlier sesungguhnya}

(28)

• _{Integrasi data:}

• _{Mengkombinasikan data dari banyak sumber kedalam suatu}

simpanan terpadu

• _{Integrasi skema}

• _{Mengintegrasikan metadata dari sumber-sumber berbeda} • _{Problem identifikasi entitas: mengenali entitas dunia nyata}

dari banyak sumber-sumber data, misal A.cust-id  B.cust-#

• _{Pendeteksian dan pemecahan konflik nilai data}

• _{Untuk entitas dunia nyata yang sama, nilai-nilai atribut dari}

(29)

• _{Problem: integrasi skema heterogen}

• _{Nama-nama tribut berbeda}

• _{Unit berbeda: Sales dalam $, sales dalam Yen, sales}

dalam DM

(30)

• _{Problem: integrasi skema heterogen}

• _{Skala berbeda: Sales dalam dollar versus sales dalam}

sen dollar

• _{Atribut turunan: Annual salary versus monthly salary}

Integrasi Data

cid monthlySalary

1 5000

cid Salary

(31)

• _{Problem: ketak-konsistenan karena redundansi}

• _{Customer dengan customer-id 150 punya 3 anak dalam}

relation1 dan 4 anak dalam relation2

• _{Komputasi annual salary dari monthly salary dalam}

relation1 tak cocok dengan atribut “annual-salary”

dalam relation2

Integrasi Data

cid numChildren

1 3

cid numChildren

(32)

• _{Data redundan sering terjadi saat integrasi dari banyak}

database

• _{Atribut yang sama bisa memiliki nama berbeda dalam}

database berbeda

• _{Atribut yang satu bisa merupakan suatu atribut “turunan”}

dalam tabel lainnya, misal, annual revenue

• _{Data redundan mungkin bisa dideteksi dengan analisis}

korelasi

• _{Integrasi data hati-hati dari banyak sumber bisa}

membantu mengurangi/mencegah redundansi dan

(33)

• _{Suatu atribut adalah redundan jika atribut tersebut}

bisa diperoleh dari atribut lainnya

• _{Analisis korelasi}

• _{Rata-rata A adalah}

• _{Deviasi standard A adalah}

• _R

_A,B

_{= 0: A dan B saling bebas}

• _R

_A,B

_{> 0: A dan B berkorelasi positip A}



_B



• _R

_A,B

_{< 0: A dan B berkorelasi negatif A}



_B



Penanganan Redundansi

(34)

• _{Penghalusan: menghilangkan noise dari data}

• _{Agregasi: ringkasan, konstruksi kubus data}

• _{Generalisasi: konsep hierarchy climbing}

• _{Normalisasi: diskalakan agar jatuh didalam suatu range}

kecil yang tertentu

• _{Normalisasi min-max} • _{Normalisasi z-score}

• _{Normalisasi dengan penskalaan desimal}

(35)

• _{Normalisasi min-max}

• _{Normalisasi z-score (saat Min, Max tak diketahui)}

• _{Normalisasi dengan penskalaan desimal}

Transformasi Data: Normalisasi

dimana j adalah integer terkecil sehingga Max(| |)<1 j

v

10

(36)

• _{Suatu data warehouse bisa menyimpan terabytes data}

• _{Analisis/menambang data kompleks bisa membutuhkan}

waktu sangat lama untuk dijalankan pada data set komplit (tak efisien)

• _{Reduksi data}

• _{Mengurangi ukuran data set tetapi menghasilkan hasil} analitis yang sama (hampir sama)

• _{Strategi reduksi data}

• _{Agregasi kubus data}

• _{Reduksi dimensionalitas—}_{menghilangkan atribut tak penting}

• _{Kompresi data}