• Tidak ada hasil yang ditemukan

KONSEP DATA MINING. Universitas Gunadarma. Disusun Oleh : Dr Lily Wulandari. Logo Seminar

N/A
N/A
Protected

Academic year: 2022

Membagikan "KONSEP DATA MINING. Universitas Gunadarma. Disusun Oleh : Dr Lily Wulandari. Logo Seminar"

Copied!
42
0
0

Teks penuh

(1)

KONSEP DATA MINING

Universitas Gunadarma

Logo Seminar

Disusun Oleh : Dr Lily Wulandari

(2)

DATA

(3)

Apa Itu Data?

• Kumpulan objek data dan atributnya

• Atribut adalah properti atau karakteristik dari suatu objek

– Contoh: warna mata seseorang, suhu, dll.

– Atribut juga dikenal sebagai variabel, field, karakteristik, dimensi, atau fitur

• Kumpulan atribut

menggambarkan objek

– Objek juga dikenal sebagai record, point, case, sampel, entitas, atau instance

Tid Refund Marital Status

Taxable

Income Cheat

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No

10 No Single 90K Yes

10

Attributes

Objects

(4)

Pandangan Data Yang Lebih Lengkap

• Data mungkin memiliki bagian

• Berbagai bagian data mungkin memiliki hubungan

• Secara umum, data mungkin memiliki struktur

• Data bisa tidak lengkap

(5)

Nilai Atribut

• Nilai atribut adalah angka atau simbol yang ditetapkan ke sebuah objek tertentu

• Perbedaan antara atribut dan nilai atribut

– Atribut yang sama dapat dipetakan ke nilai atribut yang berbeda

• Contoh: tinggi dapat diukur dalam kaki atau meter

– Atribut yang berbeda dapat dipetakan ke set nilai yang sama

• Contoh: Nilai atribut untuk ID dan usia adalah bilangan bulat

• Tetapi properti dari nilai atribut bisa berbeda

(6)

Tipe Atribut

Ada berbagai jenis atribut

Nominal

– Contoh: nomor ID, warna mata, kode pos, NPM, JenisKelamin

Urut/Ordinal

– Contoh: peringkat (mis., Rasa keripik kentang pada skala 1-10), nilai, tinggi [tinggi, sedang, pendek], tingkat kelulusan : [cumlaude, sangat memuaskan, memuaskan], suhu : [dingin, normal, panas].

Selang/Interval

– Contoh: tanggal kalender, suhu dalam Celcius atau Fahrenheit

Perbandingan/Ratio

– Contoh: umur, tinggi, panjang, waktu

(7)

Properti Nilai Atribut

• Jenis atribut tergantung pada properti / operasi berikut yang dimilikinya:

– Distinctness: =  – Order: < >

– Differences are + - meaningful :

– Ratios are * / meaningful

– Nominal attribute: distinctness

– Ordinal attribute: distinctness & order

– Interval attribute: distinctness, order & meaningful differences – Ratio attribute: all 4 properties/operations

(8)

Perbedaan Antara Ratio dan Interval

• Apakah secara fisik bermakna untuk mengatakan bahwa suhu 10° dua kali suhu 5°

– skala Celsius?

– skala Fahrenheit?

– Skala Kelvin?

• Pertimbangkan mengukur ketinggian di atas rata-rata

– Jika tinggi Bill tiga inci di atas rata-rata dan tinggi Bob enam inci di atas rata-rata, maka dapatkah kita mengatakan bahwa Bob dua kali lebih tinggi dari Bill?

– Apakah situasi ini analog dengan suhu?

(9)

Atribut Diskrit dan Kontinue

• Atribut Diskrit

– Hanya memiliki seperangkat nilai yang terbatas atau tak terhingga jumlahnya – Contoh: kode pos, jumlah, atau kumpulan kata dalam kumpulan dokumen – Sering direpresentasikan sebagai variabel integer.

– Catatan: atribut biner adalah kasus khusus atribut diskrit

• Atribut Kontinu

– Memiliki bilangan riill untuk nilai atribut – Contoh : temperatur, tinggi atau berat

– Nilai riil hanya dapat diukur dan diwakili dengan menggunakan jumlah digit yang terbatas

– Atribute Kontinu biasanya direpresentasikan sebagai variabel floating-point.

(10)

Tipe Himpunan Data

• Record

– Data Matrix – Document Data – Transaction Data

• Graph

– World Wide Web – Molecular Structures

• Ordered

– Spatial Data – Temporal Data – Sequential Data

– Genetic Sequence Data

(11)

Karakteristik Penting Data

• Dimensi (jumlah atribut)

– Data dimensi tinggi membawa sejumlah tantangan

• Sparsity

– Hanya kehadiran yang diperhitungkan

• Resolusi

– Pola tergantung pada skala

• Ukuran

– Jenis analisis mungkin tergantung pada ukuran data

(12)

Record Data

• Data yang terdiri dari kumpulan record, yang masing- masing terdiri dari himpunan atribut tetap

Tid Refund Marital Status

Taxable

Income Cheat

1 Yes Single 125K No 2 No Married 100K No

3 No Single 70K No

4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No

8 No Single 85K Yes

9 No Married 75K No 10 No Single 90K Yes

10

(13)

Data Matrix

• Jika objek data memiliki himpunan tetap atribut numerik yang sama, maka objek data dapat dianggap sebagai titik dalam ruang multi-dimensi, di mana setiap dimensi mewakili atribut yang berbeda

• Kumpulan data tersebut dapat diwakili oleh matriks mxn, di mana ada baris m, satu untuk setiap objek, dan n kolom, satu untuk setiap atribut

1.1 2.2

16.22 6.25

12.65

1.2 2.7

15.22 5.27

10.23

Thickness Load

Distance Projection

of y load Projection

of x Load

1.1 2.2

16.22 6.25

12.65

1.2 2.7

15.22 5.27

10.23

Thickness Load

Distance Projection

of y load Projection

of x Load

(14)

Data Dokumen

• Setiap dokumen menjadi vektor 'istilah’

• Setiap istilah adalah komponen (atribut) dari vektor

• Nilai dari setiap komponen adalah berapa kali istilah yang sesuai terjadi dalam dokumen.

Document 1

season

timeout

lost

win

game

score

ball

play

coach

team

Document 2 Document 3

3 0 5 0 2 6 0 2 0 2

0 0

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

(15)

Data Transaksi

• Jenis data record khusus, di mana

– Setiap record (transaksi) melibatkan serangkaian item.

– Misalnya, pertimbangkan toko bahan makanan. Set produk yang dibeli oleh pelanggan selama satu perjalanan belanja merupakan transaksi, sedangkan produk individu yang dibeli adalah item.

(16)

Data Graf

• Contoh: Grafik generik, molekul, dan halaman web

5

2

1 2

5

Benzene Molecule: C6H6

(17)

Ordered Data

• Urutan transaksi

An element of the sequence

Items/Events

(18)

Ordered Data

• Data urutan genom

GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC TGGGCTGCCTGCTGCGACCAGGG

(19)

Ordered Data

• Data Spatio-Temporal

Average Monthly Temperature of land and ocean

(20)

Kualitas Data

• Kualitas data yang buruk berdampak negatif pada banyak upaya pemrosesan data

“Poin paling penting adalah kualitas data yang buruk adalah bencana yang sedang berlangsung.

– Kualitas data yang buruk menyebabkan setidaknya sepuluh persen (10%) biaya perusahaan ; dua puluh persen (20%) mungkin merupakan perkiraan yang lebih baik. “

Thomas C. Redman, DM Review, August 2004

(21)

Kualitas Data

• Kesalahan Pengukuran: Nilai yang dicatat

berbeda dengan nilai sebenarnya (noise, bias, precission, acuracy)

• Kesalahan Pengumpulan: seperti hilangnya

obyek data/nilai dari atribut/lingkup obyek data yang tidak tetap

• Duplicate Data: obyek data ganda

(22)

Kesalahan Pengumpulan

• Outliers: obyek data yg memiliki sifat yg berbeda sekali dari kebanyakan obyek data.

• Missing Value: nilai pada suatu atribut yang tidak ditemukan/kosong.

– Bisa karena responden menolak memberikan informasi – Atribut tidak bisa diterapkan ke semua kasus

– Diatasi dengan mengurangi obyek data,memperkirakan missing value,mengganti dengan nilai yg memungkinkan

(23)

Kualitas Data

• Contoh data mining: model klasifikasi untuk

mendeteksi orang-orang yang berisiko dalam pinjaman dibangun menggunakan data yang buruk

– Beberapa kandidat yang layak mendapat kredit ditolak pinjamannya

– Lebih banyak pinjaman diberikan kepada individu yang wanprestasi

(24)

Kualitas Data

• Apa jenis masalah kualitas data?

• Bagaimana bisa mendeteksi masalah dengan data?

• Apa yang bisa dilakukan tentang masalah ini?

• Contoh masalah kualitas data:

– Noise dan outliers – Nilai yang hilang – Data rangkap

– Data yang salah

(25)

Noise

Untuk objek, noise adalah yang tidak ada hubungannya dengan objek

Untuk atribut, noise mengacu pada modifikasi nilai asli

– Contoh: distorsi suara seseorang ketika berbicara di telepon yang buruk dan

“bintik-bintik" di layar televisi

Two Sine Waves Two Sine Waves + Noise

(26)

Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam

kumpulan data

– Kasus 1: Outliers adalah noise yang mengganggu analisis data

– Kasus 2: Outliers adalah tujuan dari analisis

Penipuan kartu kredit

• Deteksi gangguan

• Penyebab?

Outliers

(27)

Nilai Yang Hilang

• Alasan hilangnya nilai

– Informasi tidak dikumpulkan (mis., Orang menolak memberikan usia dan berat badan mereka)

– Atribut mungkin tidak berlaku untuk semua kasus (mis., Pendapatan tahunan tidak berlaku untuk anak-anak)

(28)

Nilai Yang Hilang

• Menangani nilai yang hilang

– Hilangkan objek atau variabel data – Perkirakan nilai yang hilang

• Contoh: deret waktu temperatur

• Contoh: hasil sensus

– Abaikan nilai yang hilang selama analisis

(29)

Nilai yang Hilang

• Hilang sepenuhnya secara acak (Missing completely at random / MCAR)

– Hilangnya nilai tidak tergantung pada atribut – Isi nilai berdasarkan atribut

– Analisis mungkin tidak bias secara keseluruhan

• Missing at Random (MAR)

– Hilang terkait dengan variabel lain – Isi nilai berdasarkan nilai-nilai lain

– Hampir selalu menghasilkan bias dalam analisis

(30)

Nilai yang Hilang

• Missing Not at Random (MNAR)

– Kehilangan terkait dengan pengukuran yang tidak teramati

– Kehilangan yang informatif atau tidak dapat diabaikan

• Tidak mungkin mengetahui situasi dari data

(31)

Data Duplikat

• Kumpulan data dapat mencakup objek data yang

merupakan duplikat, atau hampir duplikat satu sama lain

– Masalah utama saat menggabungkan data dari sumber yang heterogen

• Contoh:

– Orang yang sama dengan banyak alamat email

• Pembersihan data

– Proses berurusan dengan masalah data duplikat

• Kapan data duplikat tidak dihapus?

(32)

Pemrosesan Data Awal

• Agregasi

• Sampling

• Binerisasi dan Diskretisasi

• Pengurangan Dimensi

• Pemilihan Fitur

• Transformasi Variabel

(33)

Agregasi

• Penggabungan obyek ke dalam sebuah obyek tunggal

• Sum,average,min,max

(34)

Sampling

• Pemilihan bagian obyek data yang akan dianalisis.

• Sample harus representatif (mewakili seluruh data)

• Sample disebut resprentatif jika mempunyai sifat yang sama dengan seluruh data biasa diukur dengan rata- rata/mean

• Penggunaan sample yang baik tidak menjamin bahwa hasil pemrosesan data mining pada sample sama

bagusnya dengan pemrosesan pada seluruh data asli

(35)

Binerisasi

• Transformasi data dari tipe continue,diskret menjadi tipe biner.

• Algoritma asosiasi membutuhkan data dengan atribut bertipe biner

• Jumlah atribut yg dibutuhkan utk binerisasi adalah N=log2(M), M= jml kelas kategori

• Contoh: {rusak,jelek,sedang,bagus,sempurna}, M=5

• N=log2(5) = 3, sehingga tdp 3 atribut x1,x2,x3

(36)

Contoh Binerisasi

(37)

Diskretisasi

• Transformasi data dari tipe kontinu ke diskrit

(38)

Pengurangan Dimensi

• Mengurangi jumlah waktu dan memory yg dibutuhkan

• Membuat data lebih mudah divisualisasi

• Membantu mengurangi fitur-fitur yang tdk relevan/mengurangi gangguan/derau

• Teknik yang digunakan

– Principal Component Analysis (PCA) – Singular Value Decomposition(SVD)

(39)

Pemilihan Fitur

• Proses pencarian terhadap semua kemungkinan subset fitur.

– Menghilangkan fitur yang redundan

Misal: harga_jual,pajak,discount

– Menghilangkan fitur-fitur yang tidak mengandung

informasi yang berguna untuk pekerjaan data mining

Misal: tinggi badan mhs pada pekerjaan prediksi kelulusan mhs , tidak relevan

(40)

Pemilihan Fitur

• Teknik yang digunakan:

– Brute-force

• Pada proses data mining dilakukan dengan mencoba semua fitur.

– Filtering:

• Memilih fitur sebelum proses data mining dilakukan – wrapper

• Menggunakan algoritma data mining untuk memilih sub-set fitur yang paling baik.

(41)

Transformasi Fitur

• Merupakan proses yang memetakan keseluruhan himpunan nilai dari fitur-fitur yang diberikan ke suatu

subset nilai pengganti sedemikian sehingga nilai yang lama dapat dikenali dengan satu dari nilai-nilai yang baru

tersebut.

• Metode dalam transformasi fitur:

– Standarisasi (median , standar deviasi).

– Normalization, dimana data sebuah atribut diskalakan ke dalam rentang (kecil) yang ditentukan (Metode: Min-max Normalization, z-score Normalization,Normalization by Decimal Scaling).

(42)

Referensi

Dokumen terkait

Pemetaan data statis antara hobi dan lokasi wisata diselesaikan dengan proses ekstraksi teks pada kumpulan data media sosial objek wisata dan pengguna untuk membangun

Tahap pengumpulan data akan menyediakan data dalam volume yang cukup besar, namun analisis data tidak dapat langsung dilakukan terhadap kumpulan data tersebut, karena harus

Dengan memanfaatkan teknik Classification pada da ta mining yang berbasis algoritma C4.5 (pembetukan pohon keputusan) untuk membagi kumpulan data yang besar menjadi

Tahap pengumpulan data akan menyediakan data dalam volume yang cukup besar, namun analisis data tidak dapat langsung dilakukan terhadap kumpulan data tersebut, karena

Tahap pengumpulan data akan menyediakan data dalam volume yang cukup besar, namun analisis data tidak dapat langsung dilakukan terhadap kumpulan data tersebut, karena harus

Dalam penelitian ini memberikan tujuan untuk mengetahui karakteristik mengelompokkan data nilai IQ siswa dalam pengolahan data yang besar sehingga mendapatkan informasi yang

• Beberapa konsep hierarki bisa secara otomatis dibangun berdasarkan pada analisis dari jumlah nilai-nilai berbeda per atribut dalam data set.

Teknik statistik saja mungkin tidak cukup untuk mengatasi beberapa masalah yang lebih menantang dalam data mining, terutama yang timbul dari kumpulan data yang sangat besar.. Meskipun