KONSEP DATA MINING
Universitas Gunadarma
Logo Seminar
Disusun Oleh : Dr Lily Wulandari
DATA
Apa Itu Data?
• Kumpulan objek data dan atributnya
• Atribut adalah properti atau karakteristik dari suatu objek
– Contoh: warna mata seseorang, suhu, dll.
– Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur
• Kumpulan atribut
menggambarkan objek
– Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
Attributes
Objects
Pandangan Data Yang Lebih Lengkap
• Data mungkin memiliki bagian
• Berbagai bagian data mungkin memiliki hubungan
• Secara umum, data mungkin memiliki struktur
• Data bisa tidak lengkap
Nilai Atribut
• Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu
• Perbedaan antara atribut dan nilai atribut
– Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda
• Contoh: tinggi dapat diukur dalam kaki atau meter
– Atribut yang berbeda dapat dipetakan ke set nilai yang sama
• Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat
• Tetapi properti dari nilai atribut bisa berbeda
Tipe Atribut
Ada berbagai jenis atribut
• Nominal
– Contoh: nomor ID, warna mata, kode pos, NPM, JenisKelamin
• Urut/Ordinal
– Contoh: peringkat (mis., Rasa keripik kentang pada skala 1-10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas].
• Selang/Interval
– Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit
• Perbandingan/Ratio
– Contoh: umur, tinggi, panjang, waktu
Properti Nilai Atribut
• Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya:
– Distinctness: = – Order: < >
– Differences are + - meaningful :
– Ratios are * / meaningful
– Nominal attribute: distinctness
– Ordinal attribute: distinctness & order
– Interval attribute: distinctness, order & meaningful differences – Ratio attribute: all 4 properties/operations
Perbedaan Antara Ratio dan Interval
• Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5°
– skala Celsius?
– skala Fahrenheit?
– Skala Kelvin?
• Pertimbangkan mengukur ketinggian di atas rata-rata
– Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill?
– Apakah situasi ini analog dengan suhu?
Atribut Diskrit dan Kontinue
• Atribut Diskrit
– Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya – Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen – Sering direpresentasikan sebagai variabel integer.
– Catatan: atribut biner adalah kasus khusus atribut diskrit
• Atribut Kontinu
– Memiliki bilangan riill untuk nilai atribut – Contoh : temperatur, tinggi atau berat
– Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas
– Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.
Tipe Himpunan Data
• Record
– Data Matrix – Document Data – Transaction Data
• Graph
– World Wide Web – Molecular Structures
• Ordered
– Spatial Data – Temporal Data – Sequential Data
– Genetic Sequence Data
Karakteristik Penting Data
• Dimensi (jumlah atribut)
– Data dimensi tinggi membawa sejumlah tantangan
• Sparsity
– Hanya kehadiran yang diperhitungkan
• Resolusi
– Pola tergantung pada skala
• Ukuran
– Jenis analisis mungkin tergantung pada ukuran data
Record Data
• Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari himpunan atribut tetap
Tid Refund Marital Status
Taxable
Income Cheat
1 Yes Single 125K No 2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No 10 No Single 90K Yes
10
Data Matrix
• Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda
• Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut
1.1 2.2
16.22 6.25
12.65
1.2 2.7
15.22 5.27
10.23
Thickness Load
Distance Projection
of y load Projection
of x Load
1.1 2.2
16.22 6.25
12.65
1.2 2.7
15.22 5.27
10.23
Thickness Load
Distance Projection
of y load Projection
of x Load
Data Dokumen
• Setiap dokumen menjadi vektor 'istilah’
• Setiap istilah adalah komponen (atribut) dari vektor
• Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.
Document 1
season
timeout
lost
win
game
score
ball
play
coach
team
Document 2 Document 3
3 0 5 0 2 6 0 2 0 2
0 0
7 0 2 1 0 0 3 0 0
1 0 0 1 2 2 0 3 0
Data Transaksi
• Jenis data record khusus, di mana
– Setiap record (transaksi) melibatkan serangkaian item.
– Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.
Data Graf
• Contoh: Grafik generik, molekul, dan halaman web
5
2
1 2
5
Benzene Molecule: C6H6
Ordered Data
• Urutan transaksi
An element of the sequence
Items/Events
Ordered Data
• Data urutan genom
GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG
Ordered Data
• Data Spatio-Temporal
Average Monthly Temperature of land and ocean
Kualitas Data
• Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data
“Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung.
– Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “
Thomas C. Redman, DM Review, August 2004
Kualitas Data
• Kesalahan Pengukuran: Nilai yang dicatat
berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy)
• Kesalahan Pengumpulan: seperti hilangnya
obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap
• Duplicate Data: obyek data ganda
Kesalahan Pengumpulan
• Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data.
• Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong.
– Bisa karena responden menolak memberikan informasi – Atribut tidak bisa diterapkan ke semua kasus
– Diatasi dengan mengurangi obyek data,memperkirakan missing value,mengganti dengan nilai yg memungkinkan
Kualitas Data
• Contoh data mining: model klasifikasi untuk
mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk
– Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya
– Lebih banyak pinjaman diberikan kepada individu yang wanprestasi
Kualitas Data
• Apa jenis masalah kualitas data?
• Bagaimana bisa mendeteksi masalah dengan data?
• Apa yang bisa dilakukan tentang masalah ini?
• Contoh masalah kualitas data:
– Noise dan outliers – Nilai yang hilang – Data rangkap
– Data yang salah
Noise
• Untuk objek, noise adalah yang tidak ada hubungannya dengan objek
• Untuk atribut, noise mengacu pada modifikasi nilai asli
– Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan
“bintik-bintik" di layar televisi
Two Sine Waves Two Sine Waves + Noise
• Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam
kumpulan data
– Kasus 1: Outliers adalah noise yang mengganggu analisis data
– Kasus 2: Outliers adalah tujuan dari analisis
• Penipuan kartu kredit
• Deteksi gangguan
• Penyebab?
Outliers
Nilai Yang Hilang
• Alasan hilangnya nilai
– Informasi tidak dikumpulkan (mis., Orang menolak memberikan usia dan berat badan mereka)
– Atribut mungkin tidak berlaku untuk semua kasus (mis., Pendapatan tahunan tidak berlaku untuk anak-anak)
Nilai Yang Hilang
• Menangani nilai yang hilang
– Hilangkan objek atau variabel data – Perkirakan nilai yang hilang
• Contoh: deret waktu temperatur
• Contoh: hasil sensus
– Abaikan nilai yang hilang selama analisis
Nilai yang Hilang
• Hilang sepenuhnya secara acak (Missing completely at random / MCAR)
– Hilangnya nilai tidak tergantung pada atribut – Isi nilai berdasarkan atribut
– Analisis mungkin tidak bias secara keseluruhan
• Missing at Random (MAR)
– Hilang terkait dengan variabel lain – Isi nilai berdasarkan nilai-nilai lain
– Hampir selalu menghasilkan bias dalam analisis
Nilai yang Hilang
• Missing Not at Random (MNAR)
– Kehilangan terkait dengan pengukuran yang tidak teramati
– Kehilangan yang informatif atau tidak dapat diabaikan
• Tidak mungkin mengetahui situasi dari data
Data Duplikat
• Kumpulan data dapat mencakup objek data yang
merupakan duplikat, atau hampir duplikat satu sama lain
– Masalah utama saat menggabungkan data dari sumber yang heterogen
• Contoh:
– Orang yang sama dengan banyak alamat email
• Pembersihan data
– Proses berurusan dengan masalah data duplikat
• Kapan data duplikat tidak dihapus?
Pemrosesan Data Awal
• Agregasi
• Sampling
• Binerisasi dan Diskretisasi
• Pengurangan Dimensi
• Pemilihan Fitur
• Transformasi Variabel
Agregasi
• Penggabungan obyek ke dalam sebuah obyek tunggal
• Sum,average,min,max
Sampling
• Pemilihan bagian obyek data yang akan dianalisis.
• Sample harus representatif (mewakili seluruh data)
• Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata- rata/mean
• Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama
bagusnya dengan pemrosesan pada seluruh data asli
Binerisasi
• Transformasi data dari tipe continue,diskret menjadi tipe biner.
• Algoritma asosiasi membutuhkan data dengan atribut bertipe biner
• Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log2(M), M= jml kelas kategori
• Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5
• N=log2(5) = 3, sehingga tdp 3 atribut x1,x2,x3
Contoh Binerisasi
Diskretisasi
• Transformasi data dari tipe kontinu ke diskrit
Pengurangan Dimensi
• Mengurangi jumlah waktu dan memory yg dibutuhkan
• Membuat data lebih mudah divisualisasi
• Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau
• Teknik yang digunakan
– Principal Component Analysis (PCA) – Singular Value Decomposition(SVD)
Pemilihan Fitur
• Proses pencarian terhadap semua kemungkinan subset fitur.
– Menghilangkan fitur yang redundan
Misal: harga_jual,pajak,discount
– Menghilangkan fitur-fitur yang tidak mengandung
informasi yang berguna untuk pekerjaan data mining
Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan
Pemilihan Fitur
• Teknik yang digunakan:
– Brute-force
• Pada proses data mining dilakukan dengan mencoba semua fitur.
– Filtering:
• Memilih fitur sebelum proses data mining dilakukan – wrapper
• Menggunakan algoritma data mining untuk memilih sub-set fitur yang paling baik.
Transformasi Fitur
• Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu
subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru
tersebut.
• Metode dalam transformasi fitur:
– Standarisasi (median , standar deviasi).
– Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization,Normalization by Decimal Scaling).