Knowledge Discovery
in Databases (IS704)
dan Data Mining
(CS704)
Kuliah #4:
Data Preprocessing (Bagian 2)
Gunawan
Jurusan Teknik Informatika
Sekolah Tinggi Teknik Surabaya 26 August 2004 Gunawan, Teknik Informatika STTS 2
Task III : Data Transformation
(Transformasi Data)
Mengubah / mentransformasikan
data ke dalam bentuk yang paling
tepat / cocok untuk proses data
mining.
26 August 2004 Gunawan, Teknik Informatika STTS 3
Beberapa Pendekatan
Transformasi Data
Transformasi Data dapat melibatkan:
–Smoothing, yang dilakukan untuk membuang noise.
–Aggregation, dimana operasi-operasi summary atau aggregation
diaplikasikan pada data.
–Generalization dari data, dimana level rendah atau data
"primitif" (data mentah) digantikan oleh higher-level concepts melalui penggunaan hirarki konsep.
–Normalization, dimana data sebuah atribut diskalakan ke dalam
rentang (kecil) yang ditentukan.
–Attribute Construction (atau Feature Construction), dimana
atribut-atribut yang baru dibentuk dan ditambahkan ke dalaanm kelompok atribut yang telah ada.
26 August 2004 Gunawan, Teknik Informatika STTS 4
Smoothing
Telah dijelaskan pada bagian sebelumnya,
mencakup binning, regression, dan
clustering.
Normalization (#1)
Min-max Normalization
–
Jika min
Adan max
Amerupakan nilai-nilai
minimum dan maximum dari atribut A,
min-max normalization memetakan sebuah nilai v
dari A menjadi v’ dalam rentang [new_min
A,
new_max
A] dengan rumus:
A A A A A A
min
new
min
new
max
new
min
max
min
v
v
'
(
_
−
_
)
+
_
−
−
=
Normalization (#2)
Contoh:
–
Anggap bahwa nilai minimum dan maximum
untuk atribut income secara berturut-turut
adalah $12,000 dan $98,000. Jika income akan
dipetakan pada rentang [0.0,1.0], dengan
normalisasi min-max, maka $73,600, sebuah
nilai dari income ditransformasikan menjadi
[(73,600 – 12,000) / (98,000-12,000)](1.0-0) +
0 = 0.716.
26 August 2004 Gunawan, Teknik Informatika STTS 7
Normalization (#3)
z-score Normalization
–
nilai-nilai untuk sebuah atribut A
dinormalisasi berdasarkan mean dan standard
deviation dari A. Nilai v dari A dinormalisasi
pada v’ dengan menghitung:
v’ = (v – Ā)
σ
A26 August 2004 Gunawan, Teknik Informatika STTS 8
Normalization (#4)
Contoh:
–
Anggaplah bahwa mean dan standard
deviation dari nilai-nilai untuk atribut income
secara berturut-turut adalah $54,000 dan
$16,000. Dengan z-score normalization, maka
income sebesar $73,600 ditransformasikan
menjadi (73,600-54,000) / 16,000 = 1.225.
26 August 2004 Gunawan, Teknik Informatika STTS 9
Normalization (#5)
Normalization by Decimal Scaling
–Prinsipnya dilakukan dengan memindahkan titik desimal dari nilai-nilai atribut A.
–Panjang pergeseran titik desimal ( j ) tergantung pada nilai absolut maksimum dari A.
–j adalah integer terkecil sedemikian hingga Max(| v’ |)<1
–Nilai v dari A dinormalisasikan pada v’ dengan menghitung: j v v 10 '=
26 August 2004 Gunawan, Teknik Informatika STTS 10
Normalization (#6)
Contoh:
–
Anggap bahwa nilai-nilai atribut A terletak
dalam range –986 sampai 917. Dengan
demikian nilai absolut maksimum A adalah
986. Untuk menormalisasikan dengan
menggunakan skala desimal, setiap nilai A
dibagi dengan 1000 (misalnya, j = 3) sehingga
–986 dinormalisasi menjadi -0.986.
Attribute Construction (1)
Satu atau lebih atribut yang baru dibentuk dari atribut-atribut yang sudah ada untuk membantu peningkatan akurasi dan pemahaman data dalam staruktur dalam dimensi yang lebih tinggi.
Sebagai contoh atribut area dapat ditambah pada atribut
height dan width.
Konstruksi atribut diharapkan membantu mengurangi masalah fragmentasi ketika algoritma decision tree digunakan untuk klasifikasi, dimana sebuah atribut diuji berkali-kali sepanjang sebuah path dalam decision tree yang didapat.
Attribute Construction (2)
Contoh operator-operator untuk konstruksi
atribut termasuk and untuk atribut binary dan
product
untuk atribut-atribut nominal.
Dengan menggabungkan sejumlah atribut,
harapannya adalah: informasi yang hilang (belum
terpikir nantinya akan bermanfaat) tentang
hubungan antar atribut dapat digali, dan mungkin
ia berguna untuk penemuan pengetahuan baru.
26 August 2004 Gunawan, Teknik Informatika STTS 13
Task IV : Data Reduction
(Reduksi Data)
Data Warehouse mungkin memuat tera bytes data, sehingga algoritma mining yang kompleks mungkin akan memakan waktu yang sangat lama untuk mengolah seluruh data sets.
Sejumlah strategi dapat diterapkan untuk mendapatkan representasi data yang telah direduksi sehingga volumenya jauh lebih kecil, tetapi integritas data originalnya masih tetap terjaga.
Artinya: Mining pada kumpulan data yang direduksi seharusnya lebih efisien, tetapi dapat menghasilkan hasil analisis yang sama (atau hampir sama).
26 August 2004 Gunawan, Teknik Informatika STTS 14
Beberapa Strategi untuk
Reduksi Data (#1)
Strategi untuk reduksi data mencakup:
–Data Cube Aggregation, ketika operasi-operasi summary / aggregation diterapkankan pada data dalam konstruksi sebuah data cube.
–Dimension Reduction, dimana atribut/dimensi yang
irrelevant (tidak relevan), weakly relevan
(berhubungan tetapi lemah), atau redundant (ganda) dapat dideteksi dan dihapus.
–Data Compression, dimana mekanisasi encoding digunakan untuk mereduksi ukuran data / data set.
26 August 2004 Gunawan, Teknik Informatika STTS 15
Beberapa Strategi untuk
Reduksi Datan (#2)
–Numerosity Reduction, di mana data diganti dengan alternatif representasi data yang lebih kecil seperti
parametric models (yang hanya perlu menyimpan
parameter-parameter model bukan data
sesungguhnya), atau metode-metode nonparametric seperti clustering, sampling, dan penggunaan histogram.
–Discretization dan Concept Hierarchy Generation, di mana nilai data mentah untuk suatu atribut digantikan dengan ranges atau level konsepsi yang lebih tinggi. Konsep hierarki memungkinkan mining data pada sejumlah level hirarki yang berbeda.
26 August 2004 Gunawan, Teknik Informatika STTS 16
Data Cube Aggregation (#1)
Data Cube Aggregation (#2)
Data Cube Aggregation (#3)
–Aggregation adalah operasi sumary (peringkasan) yang diterapkaan pada data numerik.
–Misal: Data penjualan harian digabungkan untuk menghitung pendapatan perbulan dan pertahun, sehingga tidak perlu data yang detail (dengan dirata-rata atau ditotal).
–Langkah ini dilakukan dengan memanfaatkan operator data cube roll up (meringkas).
26 August 2004 Gunawan, Teknik Informatika STTS 19
Dimensionality Reduction (#1)
Mereduksi ukuran data sets dengan
menghapus atribut-atribut yang mungkin
tidak relevan untuk proses mining.
Contoh:
–
Apakah nomor telepon cukup relevan untuk
dipakai dalam menentukan suka tidaknya
seorang customer akan CD tertentu?
26 August 2004 Gunawan, Teknik Informatika STTS 20
Dimensionality Reduction (#2)
Beberapa metode Heuristics yang dapat
digunakan:
–
decision-tree induction
–
step-wise forward selection
–
step-wise backward elimination
–
combining forward selection and backward
elimination
26 August 2004 Gunawan, Teknik Informatika STTS 21
Kumpulan attribute mula-mula : {A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 1 Class 2 Class 1 Class 2
> Kumpulan attribute setelah reduksi : {A1, A4, A6}
Contoh Dimensionally Reduction
dengan Induksi Decision Tree
26 August 2004 Gunawan, Teknik Informatika STTS 22
Data Compression
Metode yang biasa digunakan untuk
keperluan Data Reduction:
–
Wavelet Transform
–
Principal Component Analysis
Justru yang tidak biasa digunakan untuk
kompresi string atau audio/video pada
umumnya.
Wavelet Transform
Teknik pemrosesan sinyal linier, yang jika
digunakan pada vector D, mentransformasikan
vektor itu menjadi sebuah vector lain, D
′
,
koefisien wavelet-nya. Dua vector itu
panjangnya sama.
“Bagaimana mungkin teknik ini berguna untuk
reduksi data, jika data hasil transformasi wavelet
itu sama panjangnya dengan data aslinya?”
Principle Component Analysis
(#1)
26 August 2004 Gunawan, Teknik Informatika STTS 25
Principle Component Analysis
(#2)
Output: 8 utility publik yang “principal”.
26 August 2004 Gunawan, Teknik Informatika STTS 26
Numerosity Reduction
Numerosly Reduction: Upaya untuk mengurangi volume data dengan menggunakan alternatif representasi data.
Terdapat 2 (dua) kategori pendekatan yang berbeda: – Parametric Methods: Diasumsikan nilai-nilai sebuah atribut
cocok (fits) dengan model tertentu sehingga yang diproses hanya parameter-parameternya, datanya diabaikan (kecuali untuk data outlier).
– Non-Parametric Methods: Tidak mengasumsikan adanya model
yang cocok dengan data.
26 August 2004 Gunawan, Teknik Informatika STTS 27
Numerosity Reduction
Beberapa teknik yang digunakan untuk
numerosity reduction:
–
Regression Model
–
Log-Linear Model
–
Histogram
–
Clustering
–
Sampling
26 August 2004 Gunawan, Teknik Informatika STTS 28
Discretization dan Concept
Hierarchy Generation
Teknik diskritisasi dapat digunakan untuk mengurangi jumlah value
pada atribut yang diberikan, dengan membagi range nilai atribut tersebut ke dalam sejumlah interval. Label interval kemudian dapat digunakan untuk mengantikan nilai data yang aktual.
Generalization: Mengganti data level rendah / primitif / mentah
(low-level data) dengan konsep yang lebih tinggi.
Concept Hierarchy: Penerapan teknik diskretisasi secara recursive
pada nilai-nilai sebuah atribut dengan tujuan menyediakan pengelompokan/partisi secara hirarki/multiresolusi.
Discretization dan Concept
Hierarchy Generation
Beberapa metode diskretisasi dan Upaya Menghasilkan Hirarki Konsep untuk Data Numerik dapat dilakukan melalui:
–Binning: Equal Width Binning –Histogram Analysis –Cluster Analysis –Holte’s 1R Discretizer
–Entropy-Based Discretization: Recursive Minimal Entrophy Partitioning
–ChiMerge
–Segmentation by Natural Partitioning (3-4-5 rule) Paper: Discretization - An Enabling Technique, Huan Liu et.al.
Discretization dan Concept
Hierarchy Generation
Concept hierarchy dibedakan untuk:
–
Numeric Data
• Nilai usia dapat diubah ke hirarki yang lebih tinggi menjadi anak-anak, remaja, dewasa, dan manula.
–
Categorical / Nominal Data.
• nama jalan (level rendah) dapat diganti dengan nama kota, nama provinsi, negara (menuju level yang lebih tinggi).
26 August 2004 Gunawan, Teknik Informatika STTS 31