Elsen Ronando, S.Si.,M.Si.,M.Sc.
elsen.ronando@untag-sby.ac.id
Teknik Informatika Fakultas Teknik
Universitas 17 Agustus 1945 Surabaya
1 Pendahuluan
Apa itu data ?
Bagaimana perkembangan data saat ini ?
2 Teknik Preprocessing Data
Ekstraksi Fitur dan Portabilitas Data Cleaning
Data Integration Data Transformation Data Reduction
Apa itu data ?
Data → kumpulan obyek dan atributnya.
Atribut→ propertis/karakteristik sebuah obyek. Dikenal juga sebagai variabel,field, atau fitur. Contoh : warna mata seseorang, dan lain-lain. Obyek → sekumpulan atribut.
Bagaimana perkembangan data saat ini ?
Data mentah→ banyak varibel (berukuran besar) dan bersifat
heterogen.
Data mentah saat ini sangat :
banyaknoise →data outlier danerror.
banyakmissing →tidak komplit, hilang.
banyaktidak konsisten.
Akibatnya : kualitas data rendah & tidak dapat langsung digunakan
→ hasil penggalian berkualitas rendah.
Bagaimana perkembangan data saat ini ?
Data mentah→ banyak varibel (berukuran besar) dan bersifat
heterogen.
Data mentah saat ini sangat :
banyaknoise →data outlier danerror.
banyakmissing →tidak komplit, hilang.
banyaktidak konsisten.
Akibatnya : kualitas data rendah & tidak dapat langsung digunakan
→ hasil penggalian berkualitas rendah.
Teknik Preprocessing Data
Ekstraksi fitur dan portabilitas→ menyederhanakan kemampuan
analis dan mengubah atribut ke jenis yang lebih homogen.
Data Cleaning (Pembersihan Data)→ menghilangkannoise,missing,
dan data yang tidak konsisten.
Data Integration (Integrasi Data)→ menggabungkan data dari
sumber yang berbeda dan menyimpan data yang koheren, seperi data warehouse.
Data Transformation(Transformasi Data) → meningkatkan akurasi
dan efisiensi penggalian data (normalisasi).
Data Reduction (Reduksi Data)→ mereduksi ukuran data dan
mengeliminasi redudansi.
Ekstraksi Fitur dan Portabilitas Ekstraksi Fitur :
Transformasi data (low-level) ke representasi seragam (high-level) untuk diproses.
Tergantung kemampuan analisa dalam pemilihan fitur dan kesesuaiannya.
Contoh : Bill Clinton tinggal di Chappaqua Portabilitas :
Data sangat heterogen dan berisi tipe yang banyak, seperti data demografi yang berisi numerik dan bermacam-macam atribut. Beberapa cara transformasi data : Diskritisasi (Numerik→kategori),
Binerisasi (Kategori→numerik), dan lain-lain.
Data Cleaning
Menyelesaikan masalah missing data,noise, dan inkonsisten data. Beberapa cara mengatasimissing data :
Mengabaikantuple : dilakukan ketika label kelas hilang (tidak efektif jika beberapa atribut hilang)
Mengisi nilai yang hilang secara manual : memerlukan waktu + memungkinkan ?
Data Cleaning (Lanjutan)
Angkatan IPK Pekerjaan Kelamin
2004 3.45 Programmer L
2005 ? Pak RT L
2003 2.91 ? P
Data Cleaning (Lanjutan)
Noise data→ kesalahan acak atau variasi dalam variabel terukur.
Cara mengatasi :
MetodeBinning : mengurutkan data secaraascending, kemudian melakukan partisi ke dalambins (dengan jarak atau frekuensi sama). Selanjutnya, dismoothing dengansmooth by means, median,
boundaries, dan sebagainya.
Regresi : menghaluskan dengan mencocokan data ke dalam fungsi regresi.
Data Cleaning (Lanjutan)
Equal Depth : dibagi dalam kelompok k dengan jumlah sama BIN1 = 0,4,12
BIN2 = 16,16,18 BIN3 = 24,26,28
Data Integration
Penggabungan data dari berbagai sumber yang berbeda ke dalam satu penyimpanan yang koheren.
Data Integration (Lanjutan)
Redudansi data mungkin terjadi dalam integrasi data
Atribut atau obyek sama mungkin memiliki nama berbeda pada penyimpanan yang berbeda.
Sebuah atribut merupakan turunan dari atribut lainnya. Beberapa teknik untuk menangani redudansi data :
Analisa korelasi→mengamati keterkaitan hubungan dari dua variabel
dan mengetahui hubungan yang terjadi.
Perlu kecermatan dalam proses integrasi data → meningkatkan
Data Integration (Lanjutan) Contoh Analisa Korelasi :
Seorang mahasiswa bernama Andi ingin mengetahui apakah ada hubungan antara kecerdasan dengan prestasi belajar pada mahasiswa UNTAG, dengan ini Andi membuat 2 variabel yaitu kecerdasan dan prestasi belajar. Tiap-tiap variabel dibuat beberapa butir pertanyaan dengan menggunakan skala Likert, yaitu angka 1 = Sangat tidak setuju, 2 = Tidak setuju, 3 = Setuju dan 4 = Sangat Setuju. Skor total dari 5 responden sebagai berikut :
Subjek Kecerdasan Prestasi Belajar
1 33 58
2 32 52
3 21 48
4 34 49
Data Transformation
Diharapkan lebih efisien dalam proses penggalian dan pola hasil lebih mudah dipahami.
Beberapa strategi transformasi data :
Smoothing : menghilangkannoise dari data.
Agregasi : merangkum , menutup, atau mengelompokkan data. Contoh : hasil penjualan harian dapat mempengaruhi total penjualan bulanan dan tahunan.
Data Transformation (Lanjutan)
Beberapa strategi transformasi data (Lanjutan) :
Normalisasi : menormalkan bobot atribut satu dengan yang lain. Contoh : nilai atribut gaji dan umur seseorang dinormalisasi pada range nilai [−1,1] atau [0,1].
Diskritisasi : melakukan pergantian atribut numerik ke kategori label atau konseptual label. Contoh : bawah, tengah, atas atau
Data
Perlu direduksi untuk mempercepat waktu dalam proses penggalian data.
Pengurangan representasi kumpulan data menjadi lebih kecil tetapi hasil analisanya sama (atau hampir sama).
Teknik reduksi :
Reduksi dimensi (menghilangkan atribut yang tidak penting) :
transformasi wavelet, PCA(Principal Component Analysis), dan Seleksi Atribut.
Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut :
https://sites.google.com/site/elsenronandosite/teaching Klik .