• Tidak ada hasil yang ditemukan

Data Mining : Teknik Pra-Pemrosesan Data

N/A
N/A
Protected

Academic year: 2018

Membagikan "Data Mining : Teknik Pra-Pemrosesan Data"

Copied!
19
0
0

Teks penuh

(1)

Elsen Ronando, S.Si.,M.Si.,M.Sc.

elsen.ronando@untag-sby.ac.id

Teknik Informatika Fakultas Teknik

Universitas 17 Agustus 1945 Surabaya

(2)

1 Pendahuluan

Apa itu data ?

Bagaimana perkembangan data saat ini ?

2 Teknik Preprocessing Data

Ekstraksi Fitur dan Portabilitas Data Cleaning

Data Integration Data Transformation Data Reduction

(3)

Apa itu data ?

Data → kumpulan obyek dan atributnya.

Atribut→ propertis/karakteristik sebuah obyek. Dikenal juga sebagai variabel,field, atau fitur. Contoh : warna mata seseorang, dan lain-lain. Obyek → sekumpulan atribut.

(4)

Bagaimana perkembangan data saat ini ?

Data mentah→ banyak varibel (berukuran besar) dan bersifat

heterogen.

Data mentah saat ini sangat :

banyaknoise →data outlier danerror.

banyakmissing →tidak komplit, hilang.

banyaktidak konsisten.

Akibatnya : kualitas data rendah & tidak dapat langsung digunakan

→ hasil penggalian berkualitas rendah.

(5)

Bagaimana perkembangan data saat ini ?

Data mentah→ banyak varibel (berukuran besar) dan bersifat

heterogen.

Data mentah saat ini sangat :

banyaknoise →data outlier danerror.

banyakmissing →tidak komplit, hilang.

banyaktidak konsisten.

Akibatnya : kualitas data rendah & tidak dapat langsung digunakan

→ hasil penggalian berkualitas rendah.

(6)

Teknik Preprocessing Data

Ekstraksi fitur dan portabilitas→ menyederhanakan kemampuan

analis dan mengubah atribut ke jenis yang lebih homogen.

Data Cleaning (Pembersihan Data)→ menghilangkannoise,missing,

dan data yang tidak konsisten.

Data Integration (Integrasi Data)→ menggabungkan data dari

sumber yang berbeda dan menyimpan data yang koheren, seperi data warehouse.

Data Transformation(Transformasi Data) → meningkatkan akurasi

dan efisiensi penggalian data (normalisasi).

Data Reduction (Reduksi Data)→ mereduksi ukuran data dan

mengeliminasi redudansi.

(7)

Ekstraksi Fitur dan Portabilitas Ekstraksi Fitur :

Transformasi data (low-level) ke representasi seragam (high-level) untuk diproses.

Tergantung kemampuan analisa dalam pemilihan fitur dan kesesuaiannya.

Contoh : Bill Clinton tinggal di Chappaqua Portabilitas :

Data sangat heterogen dan berisi tipe yang banyak, seperti data demografi yang berisi numerik dan bermacam-macam atribut. Beberapa cara transformasi data : Diskritisasi (Numerik→kategori),

Binerisasi (Kategori→numerik), dan lain-lain.

(8)

Data Cleaning

Menyelesaikan masalah missing data,noise, dan inkonsisten data. Beberapa cara mengatasimissing data :

Mengabaikantuple : dilakukan ketika label kelas hilang (tidak efektif jika beberapa atribut hilang)

Mengisi nilai yang hilang secara manual : memerlukan waktu + memungkinkan ?

(9)

Data Cleaning (Lanjutan)

Angkatan IPK Pekerjaan Kelamin

2004 3.45 Programmer L

2005 ? Pak RT L

2003 2.91 ? P

(10)

Data Cleaning (Lanjutan)

Noise data→ kesalahan acak atau variasi dalam variabel terukur.

Cara mengatasi :

MetodeBinning : mengurutkan data secaraascending, kemudian melakukan partisi ke dalambins (dengan jarak atau frekuensi sama). Selanjutnya, dismoothing dengansmooth by means, median,

boundaries, dan sebagainya.

Regresi : menghaluskan dengan mencocokan data ke dalam fungsi regresi.

(11)

Data Cleaning (Lanjutan)

Equal Depth : dibagi dalam kelompok k dengan jumlah sama BIN1 = 0,4,12

BIN2 = 16,16,18 BIN3 = 24,26,28

(12)

Data Integration

Penggabungan data dari berbagai sumber yang berbeda ke dalam satu penyimpanan yang koheren.

(13)

Data Integration (Lanjutan)

Redudansi data mungkin terjadi dalam integrasi data

Atribut atau obyek sama mungkin memiliki nama berbeda pada penyimpanan yang berbeda.

Sebuah atribut merupakan turunan dari atribut lainnya. Beberapa teknik untuk menangani redudansi data :

Analisa korelasi→mengamati keterkaitan hubungan dari dua variabel

dan mengetahui hubungan yang terjadi.

Perlu kecermatan dalam proses integrasi data → meningkatkan

(14)

Data Integration (Lanjutan) Contoh Analisa Korelasi :

Seorang mahasiswa bernama Andi ingin mengetahui apakah ada hubungan antara kecerdasan dengan prestasi belajar pada mahasiswa UNTAG, dengan ini Andi membuat 2 variabel yaitu kecerdasan dan prestasi belajar. Tiap-tiap variabel dibuat beberapa butir pertanyaan dengan menggunakan skala Likert, yaitu angka 1 = Sangat tidak setuju, 2 = Tidak setuju, 3 = Setuju dan 4 = Sangat Setuju. Skor total dari 5 responden sebagai berikut :

Subjek Kecerdasan Prestasi Belajar

1 33 58

2 32 52

3 21 48

4 34 49

(15)

Data Transformation

Diharapkan lebih efisien dalam proses penggalian dan pola hasil lebih mudah dipahami.

Beberapa strategi transformasi data :

Smoothing : menghilangkannoise dari data.

Agregasi : merangkum , menutup, atau mengelompokkan data. Contoh : hasil penjualan harian dapat mempengaruhi total penjualan bulanan dan tahunan.

(16)

Data Transformation (Lanjutan)

Beberapa strategi transformasi data (Lanjutan) :

Normalisasi : menormalkan bobot atribut satu dengan yang lain. Contoh : nilai atribut gaji dan umur seseorang dinormalisasi pada range nilai [−1,1] atau [0,1].

Diskritisasi : melakukan pergantian atribut numerik ke kategori label atau konseptual label. Contoh : bawah, tengah, atas atau

(17)

Data

Perlu direduksi untuk mempercepat waktu dalam proses penggalian data.

Pengurangan representasi kumpulan data menjadi lebih kecil tetapi hasil analisanya sama (atau hampir sama).

Teknik reduksi :

Reduksi dimensi (menghilangkan atribut yang tidak penting) :

transformasi wavelet, PCA(Principal Component Analysis), dan Seleksi Atribut.

(18)

Seluruh materi presentasi dapat didownload pada SIAKAD masing-masing atau link berikut :

https://sites.google.com/site/elsenronandosite/teaching Klik .

(19)

Referensi

Dokumen terkait

Pada tahap ini kita akan mengklasifikasikan data citra yang telah di preprocessing menggunakan 1 metode klasifikasi yaitu Maximum Likelihood (ML), Pembuatan Map

Teknik pengumpulan data dalam penelitian ini didasarkan pada sifat data yang diinginkan dan sesuai tahap-tahap penelitian yakni (1) studi dokumentasi pada tahap studi pendahuluan

Baik menyangkut apa tujuan pembelajaran kitab Ta’lîm al-Muta’allim di Pondok Pesantren Al-Falah Puteri , bagaimana proses internalisasi, bagaimana teknik dan tahap

Cara pengambilan data adalah dengan melakukan tes kualitas gerak dasar chest pass dalam bola basket mulai dari. tahap awal sampai tahap

Hasil penelitian berupa penerapan teknik data mining yang meliputi klasterisasi ( clustering ) menggunakan algoritma k-means , klasifikasi ( classification ) menggunakan

• Klastering sering digunakan sebagai tahap awal dalam proses data mining , dengan hasil klaster yang terbentuk akan menjadi input dari algoritma berikutnya

KESIMPULAN DAN SARAN Berdasarkan seluruh hasil tahapan penelitian yang telah dilakukan pada pemetaan hasil produksi buah-buahan dengan teknik data mining dapat disimpulkan sebagai

2 Agustus 2021 APLIKASI PENJUALAN MENGGUNAKAN TEKNIK DATA MINING DENGAN MARKET BASKET ANALYSIS DAN ALGORITMA APRIORI STUDI KASUS PADA : JETLAG COFFEE Elmi Devia 24 Espresso,