• Tidak ada hasil yang ditemukan

IN086 Temu Pengetahuan. 5. Data Preprocessing

N/A
N/A
Protected

Academic year: 2021

Membagikan "IN086 Temu Pengetahuan. 5. Data Preprocessing"

Copied!
14
0
0

Teks penuh

(1)

IN086 – Temu Pengetahuan

5. Data Preprocessing

1

Mengapa Data Preprocessing ?

Data di dunia nyata itu kotor

Tidak lengkap: kekurangan nilai atribut,

kekurangan beberapa atribut yang dibutuhkan,

atau hanya terdiri dari data agregat

(2)

Mengapa Data Kotor?

• Data yang tidak lengkap mungkin berasal dari

• Data bernilai “Not Applicable” saat direkam

• Pertimbangan yang berbeda saat data direkam dan saat data dianalisa

• Masalah – masalah perangkat keras / perangkat lunak

• Data yang berisik (noisy / data yang tidak benar) mungkin berasal dari

• Instrumen yang mengumpulkan data yang salah • Kesalahan manusia atau komputer saat entri data • Kesalahan saat transmisi data

• Data yang tidak konsisten mungkin berasal dari

• Sumber – sumber data yang berbeda

• Pelanggaran ketergantungan fungsinal (contoh: memodifikasi data yang terhubung)

• Data duplikat juga perlu dibersihkan

3

Mengapa Data Preprocessing

Penting?

No quality data, no quality mining results!

• Keputusan berkualitas harus berasal dari data yang berkualitas

• Contoh: data duplikat atau hilang dapat menyebabkan statistik yang salah atau menyesatkan

• Data Warehouse membutuhkan integrasi yang konsisten dari data yang berkualitas

Ekstraksi data, pembersihan, dan transformasi

merupakan pekerjaan terbesar dari membangun

sebuah Data Warehouse

(3)

Tugas – Tugas Utama dalam Data

Preprocessing

Pembersihan Data

• Mengisi nilai – nilai yang hilang, menghaluskan data yang berisik, mengidentifikasi outlier, dan menyelesaikan ketidakkonsistenan. •

Integrasi Data

• Integrasi dari basis data, data cube, atau berkas – berkas yang beragam

Transformasi Data

• Normalisasi dan agregasi •

Reduksi Data

• Mendapatkan representasi yang lebih sedikit dalam volume tetapi menghasilkan hasil analisis yang sama atau mirip

Dikretisasi Data

• Bagian dari reduksi data tapi dengan kepentingan yang tertentu, khususnya untuk data numerik

5

(4)

Deskripsi Data

7

Karakteristik dari Mining Data Deskriptif

• Motivasi

• Untuk lebih memahami data: tendensi sentral, variasi, sebaran

• Karakteristik Dispersi Data

• median, max, min, quantiles, outliers, variance, dll.

• Dimensi numerik yang berhubungan dengan interval yang disortir

• Dispersi Data: dianalisa dengan presisi yang bergranularitas beragam

• Analisis boxplot atau quantile untuk interval yang tersortir

• Analisis Dispersi dari nilai – nilai terkomputasi

• Melipat pengukuran dalam dimensi numerik

• Analisis boxplot atau quantile untuk kubus yang ditransformasi

(5)

9

Mengukur Tendensi Sentral

• Mean (pengukuran aljabar) (sampel vs. populasi):

• Weighted arithmetic mean:

• Trimmed mean: memangkas nilai extreme

• Median: Sebuah nilai holistik

• Nilai tengah dari nilai – nilai berjumlah ganjil, atau rata – rata nilai tengah untuk yang lainnya.

• Diestimasikan dengan interpolasi (untuk data berkelompok)

• Mode

• Nilai yang muncul paling sering dalam data

• Unimodal, bimodal, trimodal

• Rumus empiris: N x

  9

  n i i x n x 1 1

   n i i n i i i w x w x 1 1 c f l f n L median median ) ) ( 2 / ( 1

  

)

(

3

mean

median

mode

mean

Data Simetris vs Skewed

Median, mean and mode dari data

simetris, skewed positif dan skewed

negatif

(6)

DM-MA/S1IF/FTI/UKM/2010

Mengukur Sebaran Data

• Quartiles, outliers dan boxplots

• Quartiles: Q1 (25th percentile), Q3 (75th percentile) • Inter-quartile range: IQR = Q3 –Q1

• Five number summary: min, Q1, M,Q3, max

• Boxplot: akhir dari kotak adalah the quartiles, median ditandai, whiskers, dan mengeplot outlier satu persatu

• Outlier: biasanya nilai lebih tinggi / rendah dari 1.5 x IQR

Variance dan standard deviasi (sample: s, population: σ)

• Variance: (algebraic, scalable computation)

• Standard deviasi s (or σ) adalah akar kuadrat dari variance s2 (orσ2)

        n i i n i i N x x N 1 2 2 1 2 2 1 ( ) 1  11

         n i n i i i n i i x n x n x x n s 1 1 2 2 1 2 2 [ 1( ) ] 1 1 ) ( 1 1 DM-MA/S1IF/FTI/UKM/2010 12

Properti dari Kurva Distribusi Normal

Kurva distribusi normal

Dari μ–σ ke μ+σ: mengandung sekitar 68% seluruh

pengukuran (μ: mean, σ: standard deviasi)

Dariμ–2σ to μ+2σ: mengandung sekitar 95% seluruh

pengukuran

Dari μ–3σ to μ+3σ: mengandung sekitar 99.7% seluruh

pengukuran

(7)

10/1/2014

Analisis Histogram

Tampilan grafis dari deskripsi kelas statistika dasar

Histogram frekuensi

• Sebuah metode grafika yang univariate

• Terdiri dari sebuah set dari kotak – kotak yang merefleksikan jumlah atau frekuensi dari kelas – kelas yang ada dalam data

13

Plot tebar / Scatter plot

Menyediakan tampilan awal dari data yang bersifat bivariate

untuk melihat klaster dari poin, outlier, dll

Setiap pasang nilai diterjemahkan sebagai sepasang koordinat

dan diplot sebagai poin dalam latar

(8)

Data preprocessing

15

DM-MA/S1IF/FTI/UKM/2010

Pembersihan Data

Arti penting

• Pembersihan data merupakan salah satu dari tiga

permasalahan besar dalam Data Warehousing – Ralph Kimball

• Pembersihan data adalah permasalahan nomor satu dari Data Warehousing – Survey DCI

Tugas – tugas Pembersihan Data

• Mengisi nilai – nilai yang hilang

• Mengidentifikasi outlier dan menghaluskan data yang berisik

• Mengoreksi data yang tidak konsisten

• Menyelesaikan duplikasi yang disebabkan karena integrasi data

(9)

DM-MA/S1IF/FTI/UKM/2010

Data yang Hilang

Data tidak selalu harus tersedia

• Contoh: banyak tuples (pasangan data) yang tidak memiliki data yang terekam untuk beberapa atributnya, seperti penghasilan konsumen dalam data sales

Hilangnya data mungkin disebabkan oleh

Kerusakan instrumen

Ketidakkonsistenan dengan rekaman data yang lain

yang akhrinya dihapus

Data tidak dimasukkan karena kesalahpahaman

Beberapa data tidak dianggap penting waktu di entri

Tidak ada daftar historis atau perubahan dari data

Data yang hilang mungkin perlu diperkirakan nilainya.

17

Bagaimana Menangani Missing Data?

• Mengabaikan tuple: biasanya dilakukan ketika label kelas hilang

(diasumsikan untuk tugas klasifikasi) – tidak efektif apabila prosentase dari nilai yang hilang di setiap atribut bervariasi secara besar

• Mengisi nilai yang hilang secara manual: memakan waktu + memungkinkan?

(10)

DM-MA/S1IF/FTI/UKM/2010

Data Berisik / Noisy

• Noise: error random atau variance dari sebuah variabel yang diukur

• Nilai atribut yang tidak benar mungkin disebabkan oleh

• Instrumen pengumpul data yang salah

• Masalah data entri

• Masalah transmisi data

• Limitasi teknologi

• Ketidakkonsistenan dalam kesepakatan penamaan

• Kesalahan – kesalahan lain yang membutuhkan pembersihan data

• Data duplikat

• Data tidak lengkap

• Data tidak konsisten

19

Bagaimana Menangani Noisy Data?

Binning

Pertama menyortir data dan mempartisi menjadi bin – bin

berfrekuensi sama

Kemudian dapat dilakukan

smooth by bin means, smooth by

bin median, smooth by bin boundaries

, dll.

Regresi

Menghaluskan dengan memasangkan data dalam fungsi regresi

Clustering

Mendeteksi dan menghilangkan outlier

Kombinasi inspeksi komputer dan manusia

Mendeteksi nilai – nilai yang dicurigai dan dicek oleh manusia

(contoh menangani kemungkinan outlier)

(11)

Metode Diskretisasi Sederhana: Binning

Equal-width

(distance) partitioning

• Membagi kisaran dalam N interval dengan ukuran yang sama: grid seragam

• Jika A dan B adalah nilai terendah dan tertinggi dari atribut, lebar internval menjadi: W = (B – A) / N

• Sangat simpel, tapi presentasi akan didominasi outlier

• Data skewed tidak tertangani dengan baik

Equal-depth

(frequency) partitioning

• Membagi kisaran dalam N interval, setiap interval berisi sampel yang kira – kira sama jumlahnya

• Skala data yang baik

• Mengatur data kategoris mungkin agak sulit

21

Metode Binning untuk Penghalusan Data

 Sortir data untuk harga (dalam dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 * Partisi dalam equal-frequency (equi-depth) bins:

- Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34

(12)

Integrasi Data

Integrasi Data:

Mengkombinasikan data dari sumber – sumber yang berbeda

dalam sebuah penyimpanan yang koheren

Skema integrasi: contoh A.cust-id  B.cust-#

Mengintegrasikan meta data dari berbagai sumber

Permasalahan identifikasi Entitas

:

Mengidentifikasi entitas dunia nyata dari berbagai sumber,

contoh Bill Clinton = William Clinton

Mendeteksi dan menyelesaikan konflik nilai data

Untuk entitas dunia nyata yang sama, nilai atribut dari sumber

berbeda mungkin bernilai berbeda

Alasan yang mungkin: representasi yang berbeda, skala

yang berbeda, contoh unit metrik dan unit British

23

Menganani Kembaran Data dalam Integrasi Data

Data redundan (kembar) mungkin sering terjadi dalam integrasi dari

berbagai basis data

Object identification: atribut atau obyek yang sama mungkin

memiliki nama berbeda pada basis data yang berbeda

Derivable data: satu atribut mungkin sebuah atribut derivasi dari

atribut tabel yang lainnya, contoh revenue tahunan

Atribut kembaran mungkin dapat dideteksi dengan melakukan

analisis korelasi

Integrasi yang hati – hati dari data yang berasal dari berbagai

sumber bisa mengurangi / menghidari kembaran atau

ketidakkonsistenan dan meningkatkan kecepatan dan kualitas

mining.

(13)

Transformasi Data

• Penghalusan: menghilangkan noise dari data

• Agregasi: merangkum, konstruksi kubus data

• Generalisasi: konsep menyusuri hirarki

• Normalisasi: diskala untuk masuk dalam kisaran yang kecil dan tertentu

• Normalisasi min – max

• Normalisasi z-score

• Normalisai dengan skala desimal

• Konstruksi atribut / fitur

• Atribut – atribut baru dibuat dari atribut yang sudah diberikan

25

Strategi Reduksi Data

Mengapa Reduksi Data?

• Sebuah basis data / Data Warehouse dapat menyimpan data dalam terabita

• Data analisis yang kompleks / mining dapat memakan waktu yang sangat lama apabila dilakukan di set data yang lengkap

Reduksi Data

• Mendapatkan representasi data set yang dikurangi yang sangat lebih kecil dalam volume tapi dapat menghasilkan hasil analisis yang sama

(14)

Diskretisasi

Tiga tipe atribut

• Nominal – nilai dari set yang tidak berurut, contoh warna, profesi

• Ordinal – nilai dari set yang berurut, contoh rangking militer dan akademis

• Continuous – nilai riil, contoh nilai integer atau real

Diskretisasi

• Membagi kisaran dari nilai atribut continuous menjadi interval – interval

• Beberapa algoritma klasifikasi hanya menerima atribut kategorikal

• Mengurangi ukuran data dengan diskretisasi

• Penyiapkan untuk analisa lanjutan

27

Diskretisasi dan Hirarki Konsep

Diskretisasi

• Mengurangi jumlah dari nilai – nilai untuk atribut yang continuous dengan membaginya dalam kisaran atribut dalam interval – interval

• Label interval kemudian dipakai untuk mengganti nilai data aktual

• Supervised dan unsupervised

• Split (top – down) vs. Merge (bottom – up)

• Diskretisasi dapat dilakukan secara rekursif pada sebuah atribut

Formasi hirarki konsep

• Secara rekursif mereduksi data dengan mengumpulkan dan mengganti konsep yang level rendah (seperti nilai numerik untuk umur) menjadi konsep yang tingkatannya lebih tinggi (seperti muda, dewasa, senior)

Referensi

Dokumen terkait

Kehadiran Transnational Advocacy Network (TANs) berperan sebagai jaringan yang melakukan advokasi untuk mempengaruhi sekaligus menekan pemerintah dalam negeri

Memperhatikan antusias siswa SD, SMP, SMA/K dan setelah 4 tahun berturut-turut kami menyelenggarakan Ajang Kompetisi Robot IMAGINE, maka pada tahun 2011 kami akan

Kondisi air tanah di daernh penelitian mulai dari Bantar Gebang sampai Bekasi Selatan adalah baik, hat ini dapat dilihat dari peta potensi air tanah Bekasi yang

Dengan demikian hasil analisis regresi parsial variabel bebas terhadap variabel terikat pada Tabel 7 dapat disimpulkan bahwa variabal kualitas layanan akademik (tangible dan

Kegiatan belajar mengajar yang dilaksanakan pada kelompok kelas kontrol tersebut, merupakan rangkaian kegiatan belajar mengajar yang telah dirancang oleh peneliti

Penelitian ini bertujuan untuk mengetahui komposisi asam lemak dan sifat fisikokimia minyak biji kenari dari spesies Canarium indicum dan Canarium vulgare dari beberapa

Selain adanya perintah dan anjuran untuk memelihara anak yatim dan hartanya dengan baik, Alquran juga menjelaskan mengenai larangan memakan harta anak yang berada