DATA
Shaufiah KBK RPL dan Data Fakultas Informatika IT Telkom [email protected]Pokok Bahasan
Data dan informasi Jenis-jenis data
Kualitas Data
Data dan Informasi
Data adalah deskripsi tentang benda, kejadian,
aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai.
Informasi adalah data yang telah diolah menjadi
sebuah bentuk yang berarti bagi penerimanya dan bermanfaat dalam pengambilan keputusan saat ini atau saat mendatang (Davis 1999).
Hirarki Data,Informasi dan Knowledge
Rendah Tinggi Pengetahuan Derajat abstraksi Informasi DataData dalam Data Mining
Merupakan
kumpulan objek data dan atributnya
Umur Kegemukan Hipertensi
Muda Gemuk Tidak
Muda Sangat gemuk Tidak Paruh baya Gemuk Tidak Paruh baya Terlalu Gemuk Ya Tua Terlalu Gemuk Ya
Atribut Objek Salah Satu Contoh Data
Atribut?
Atribut merupakan properti atau karakteristik yang dimiliki oleh
sebuah objek.
Nama lain atribut: variabel, field, karakteristik, feature, atau
observasi
Setiap objek akan digambarkan melalui satu set atribut yang
sudah ditentukan sebelumnya ( atribut)
Contoh: Gajah memiliki karakteristik : hidung : panjang , telinga:
lebar, badan : besar
Objek bisa juga disebut : instance (Tidak sama dengan instance
di Java Prog.Language), record, point, case, sample atau entity
Nilai Atribut
Nilai sebuah atribut bisa terdiri dari :
Angka 1, 2.002, 081931461344 dll
Simbol emas, laki-laki, kurus dll
Setiap atribut bisa diberikan nilai dalam skala yang
berbeda
Contoh: panjang bisa diukur dengan meter atau kaki
Atribut yang berbeda bisa saja memiliki skala nilai /
tipe yang sama
Contoh: nilai atribut untuk NIP dan umur dalam integer , namun nilai tersebut memiliki properti (detail di slide hal
9) yang berbeda
▪ NIP mungkin tak terbatas akan tetapi umur memiliki nilai maksimum dan minimum
Tipe-tipe Atribut
Jika dibedakan berdasarkan “levels of measurement “
ada:
Nominal
▪ Contoh: Nomer KTP Nasional, NIP, Kode pos
Ordinal
▪ Contoh: tinggi badan {tinggi, sedang, pendek}, grade nilai
Interval
▪ Contoh: tanggal, suhu pada skala Celsius atau Fahrenheit.
Ratio
▪ Contoh: suhu dalam skala Kelvin, panjang (yang terukur
cm,meter dst), waktu
Properties dari Nilai Atribut
Tipe Atribut ditentukan oleh properti yang dimilikinya
sebagai berikut:
Distinctness: = Order: < >
Addition: +
- Multiplication: * /
Atribut Nominal : distinctness
Atribut Ordinal : distinctness & order
Atribut Interval : distinctness, order & addition Atribut Ratio : all 4 properties
Atribut Diskrit dan Atribut Kontinu
Atribut Diskrit
Nilai yang dimiliki terbatas atau bisa dihitung
Contoh: kode pos, words in a collection of documents
Biasanya berupa variabel integer
Note: atribut binary merupakan atribut diskrit kasus khusus
Atribut Kontinu
Nilai atribut merupakan bilangan riil
Contoh: suhu = 23.4 „ Celcius, tinggi = 172,2 cm atau berat= 3.15 kg.
Atribut kontinu biasanya direpresentasikan sebagai variabel
floating-point.
Tipe Dataset
Tipe Umum Record Graph Ordered Karakteristik Umum: Dimensionality Sparsity Resolution 11Data Record
Data yang terdiri dari kumpulan records dengan
sejumlah atribut yang fix
12
Umur TkKegemukan Hipertensi
Muda Gemuk Tidak Muda Sangat gemuk Tidak Paruh baya Gemuk Tidak Paruh baya Terlalu Gemuk Ya
Data Matriks
Jika objek data memiliki atribut numerik yang sama dan tetap,
maka objek data dapat digambarkan sebagai point dalam multi-dimensional space, di mana setiap dimensi merupakan atribut yang berbeda
Data set tsb. Bisa digambarkan dengan matriks m x n, m =
baris, satu untuk tiap objek, dan n kolom, satu untuk tiap atribut
13 1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load 1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load
DataDokumen
Setiap dokumen menjadi vektor `term‟,
Tiap term menjadi atribut dari vektor
Nilai setiap komponen merupakan jumlah term yang muncul dalam dokumen. 14 Document 1 s e a s o n tim e o u t lo s t w i n g a m e s c o re b a ll p la y c o a c h te a m Document 2 3 0 5 0 2 6 0 2 0 2 0 7 0 2 1 0 0 3 0 0
DataTransaksi
Tipe data record yang spesial, dimana
Setiap transaksi /record terdiri dari beberapa item.
Contoh: data satu struk belanja di supermarket dianggap sebagai
sebuah record transaksi
15
TID Item
1 Susu, Coklat, Roti 2 Roti, Selai
3 Selai, Roti, Coklat, Susu 4 Roti, Coklat, Susu
Data Graph
Graph umum
16
Link HTML
<a href=“penelitian/penelitian.html#bbbb”> Data Mining</a> <li> <a href=“penelitian/penelitian.html#aaaa”>Klasifikasi</a> <li> <a href=“penelitian/penelitian.html#ffff”>Klastering</a> 3 4 2 4 3
Data Kimia
Molekul Benzena : C6H6
Data Ordered
Transaksi yang sekuens
18
Elemen dari sekuens Items/Events
Data Ordered
Data sekuens Genom
19 GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG Sequence ladder by radioactive sequencing compared to fluorescent peaks Source: http://en.wikipedia.org/wiki/DNA_sequencing
Data Ordered : Data Spatio-Temporal
Kualitas Data
Apa yang menjadi permasalahan dengan data? Bagaimana mendeteksinya?
Apa yang bisa dilakukan?
Contoh masalah kualitas data :
Noise dan outliers Missing values Duplikasi data
Noise
Modifikasi nilai sebenarnya
Contoh: distorsi suara pada pembicaraan di telpon “snow” on television screen
Outliers
Objek data yang berbeda karakteristik dengan
objek data kebanyakan:
Missing Values
Contoh Missing Value:
24
Nama Gender Umur Penghasilan Pendidikan Alamat
Rudi L 45 2.500.000 SMA Buah Batu
Ando L 23 3.600.000 S1 Dago
Kusno L 50 4.100.000 S1 Gede Bage
Fadli L 4 - - Antapani
Ayyesha P 2 - - Antapani
Fahira P 35 2.000.000 S1 Antapani Erika P 41 10.000.000 S2 Gede Bage
Alasan Adanya Missing Value
Informasi tidak terkumpul dengan lengkap
▪ Misal: orang menolak menyebutkan umur dan berat badan
Atribut mungkin tidak bisa diterapkan untuk semua kasus
▪ Misal: Penghasilan tidak bisa diaplikasikan untuk Bayi dan
anak kecil
Solusi Penanganan missing values
▪ Mengeliminasi objek data
▪ Mengestimasi missing values
▪ Tidak memperhatikan missing value saat analisis
▪ Menggantikan dengan semua kemungkinan nilai
(pembobotan berdasarkan probabilitasnya)
Duplikasi Data
Data set mungkin terdapat objek data yang
duplikat
Penyebab ketika mengumpulkan data dari sumber
yang bermacam-macam
Contoh:
Survey dilakukan berdasarkan alamat email padahal
satu orang bisa memiliki lebih dari satu alamat email
Solusi ? Data cleaning