• Tidak ada hasil yang ditemukan

DATA. Shaufiah. KBK RPL dan Data Fakultas Informatika IT Telkom

N/A
N/A
Protected

Academic year: 2021

Membagikan "DATA. Shaufiah. KBK RPL dan Data Fakultas Informatika IT Telkom"

Copied!
27
0
0

Teks penuh

(1)

DATA

Shaufiah KBK RPL dan Data Fakultas Informatika IT Telkom [email protected]

(2)

Pokok Bahasan

 Data dan informasi  Jenis-jenis data

 Kualitas Data

(3)

Data dan Informasi

Data adalah deskripsi tentang benda, kejadian,

aktivitas, dan transaksi, yang tidak mempunyai makna atau tidak berpengaruh secara langsung kepada pemakai.

Informasi adalah data yang telah diolah menjadi

sebuah bentuk yang berarti bagi penerimanya dan bermanfaat dalam pengambilan keputusan saat ini atau saat mendatang (Davis 1999).

(4)

Hirarki Data,Informasi dan Knowledge

Rendah Tinggi Pengetahuan Derajat abstraksi Informasi Data

(5)

Data dalam Data Mining

 Merupakan

kumpulan objek data dan atributnya

Umur Kegemukan Hipertensi

Muda Gemuk Tidak

Muda Sangat gemuk Tidak Paruh baya Gemuk Tidak Paruh baya Terlalu Gemuk Ya Tua Terlalu Gemuk Ya

Atribut Objek Salah Satu Contoh Data

(6)

Atribut?

 Atribut merupakan properti atau karakteristik yang dimiliki oleh

sebuah objek.

 Nama lain atribut: variabel, field, karakteristik, feature, atau

observasi

 Setiap objek akan digambarkan melalui satu set atribut yang

sudah ditentukan sebelumnya ( atribut)

 Contoh: Gajah memiliki karakteristik : hidung : panjang , telinga:

lebar, badan : besar

Objek bisa juga disebut : instance (Tidak sama dengan instance

di Java Prog.Language), record, point, case, sample atau entity

(7)

Nilai Atribut

 Nilai sebuah atribut bisa terdiri dari :

 Angka  1, 2.002, 081931461344 dll

 Simbol  emas, laki-laki, kurus dll

 Setiap atribut bisa diberikan nilai dalam skala yang

berbeda

 Contoh: panjang bisa diukur dengan meter atau kaki

 Atribut yang berbeda bisa saja memiliki skala nilai /

tipe yang sama

 Contoh: nilai atribut untuk NIP dan umur dalam integer , namun nilai tersebut memiliki properti (detail di slide hal

9) yang berbeda

▪ NIP mungkin tak terbatas akan tetapi umur memiliki nilai maksimum dan minimum

(8)

Tipe-tipe Atribut

Jika dibedakan berdasarkan “levels of measurement “

ada:

 Nominal

▪ Contoh: Nomer KTP Nasional, NIP, Kode pos

 Ordinal

▪ Contoh: tinggi badan {tinggi, sedang, pendek}, grade nilai

 Interval

▪ Contoh: tanggal, suhu pada skala Celsius atau Fahrenheit.

 Ratio

▪ Contoh: suhu dalam skala Kelvin, panjang (yang terukur

cm,meter dst), waktu

(9)

Properties dari Nilai Atribut

 Tipe Atribut ditentukan oleh properti yang dimilikinya

sebagai berikut:

 Distinctness: =  Order: < >

 Addition: +

- Multiplication: * /

 Atribut Nominal : distinctness

 Atribut Ordinal : distinctness & order

 Atribut Interval : distinctness, order & addition  Atribut Ratio : all 4 properties

(10)

Atribut Diskrit dan Atribut Kontinu

 Atribut Diskrit

 Nilai yang dimiliki terbatas atau bisa dihitung

 Contoh: kode pos, words in a collection of documents

 Biasanya berupa variabel integer

Note: atribut binary merupakan atribut diskrit kasus khusus

 Atribut Kontinu

 Nilai atribut merupakan bilangan riil

 Contoh: suhu = 23.4 „ Celcius, tinggi = 172,2 cm atau berat= 3.15 kg.

Atribut kontinu biasanya direpresentasikan sebagai variabel

floating-point.

(11)

Tipe Dataset

 Tipe Umum  Record  Graph  Ordered  Karakteristik Umum:  Dimensionality  Sparsity  Resolution 11

(12)

Data Record

 Data yang terdiri dari kumpulan records dengan

sejumlah atribut yang fix

12

Umur TkKegemukan Hipertensi

Muda Gemuk Tidak Muda Sangat gemuk Tidak Paruh baya Gemuk Tidak Paruh baya Terlalu Gemuk Ya

(13)

Data Matriks

 Jika objek data memiliki atribut numerik yang sama dan tetap,

maka objek data dapat digambarkan sebagai point dalam multi-dimensional space, di mana setiap dimensi merupakan atribut yang berbeda

Data set tsb. Bisa digambarkan dengan matriks m x n, m =

baris, satu untuk tiap objek, dan n kolom, satu untuk tiap atribut

13 1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load 1.1 2.2 16.22 6.25 12.65 1.2 2.7 15.22 5.27 10.23 Thickness Load Distance Projection of y load Projection of x Load

(14)

DataDokumen

 Setiap dokumen menjadi vektor `term‟,

 Tiap term menjadi atribut dari vektor

 Nilai setiap komponen merupakan jumlah term yang muncul dalam dokumen. 14 Document 1 s e a s o n tim e o u t lo s t w i n g a m e s c o re b a ll p la y c o a c h te a m Document 2 3 0 5 0 2 6 0 2 0 2 0 7 0 2 1 0 0 3 0 0

(15)

DataTransaksi

 Tipe data record yang spesial, dimana

 Setiap transaksi /record terdiri dari beberapa item.

 Contoh: data satu struk belanja di supermarket dianggap sebagai

sebuah record transaksi

15

TID Item

1 Susu, Coklat, Roti 2 Roti, Selai

3 Selai, Roti, Coklat, Susu 4 Roti, Coklat, Susu

(16)

Data Graph

 Graph umum

16

 Link HTML

<a href=“penelitian/penelitian.html#bbbb”> Data Mining</a> <li> <a href=“penelitian/penelitian.html#aaaa”>Klasifikasi</a> <li> <a href=“penelitian/penelitian.html#ffff”>Klastering</a> 3 4 2 4 3

(17)

Data Kimia

 Molekul Benzena : C6H6

(18)

Data Ordered

 Transaksi yang sekuens

18

Elemen dari sekuens Items/Events

(19)

Data Ordered

 Data sekuens Genom

19 GGTTCCGCCTTCAGCCCCGCGCC CGCAGGGCCCGCCCCGCGCCGTC GAGAAGGGCCCGCCTGGCGGGCG GGGGGAGGCGGGGCCGCCCGAGC CCAACCGAGTCCGACCAGGTGCC CCCTCTGCTCGGCCTAGACCTGA GCTCATTAGGCGGCAGCGGACAG GCCAAGTAGAACACGCGAAGCGC

TGGGCTGCCTGCTGCGACCAGGG Sequence ladder by radioactive sequencing compared to fluorescent peaks Source: http://en.wikipedia.org/wiki/DNA_sequencing

(20)

Data Ordered : Data Spatio-Temporal

(21)

Kualitas Data

 Apa yang menjadi permasalahan dengan data?  Bagaimana mendeteksinya?

 Apa yang bisa dilakukan?

 Contoh masalah kualitas data :

 Noise dan outliers  Missing values  Duplikasi data

(22)

Noise

 Modifikasi nilai sebenarnya

 Contoh: distorsi suara pada pembicaraan di telpon “snow” on television screen

(23)

Outliers

 Objek data yang berbeda karakteristik dengan

objek data kebanyakan:

(24)

Missing Values

 Contoh Missing Value:

24

Nama Gender Umur Penghasilan Pendidikan Alamat

Rudi L 45 2.500.000 SMA Buah Batu

Ando L 23 3.600.000 S1 Dago

Kusno L 50 4.100.000 S1 Gede Bage

Fadli L 4 - - Antapani

Ayyesha P 2 - - Antapani

Fahira P 35 2.000.000 S1 Antapani Erika P 41 10.000.000 S2 Gede Bage

(25)

Alasan Adanya Missing Value

 Informasi tidak terkumpul dengan lengkap

▪ Misal: orang menolak menyebutkan umur dan berat badan

 Atribut mungkin tidak bisa diterapkan untuk semua kasus

▪ Misal: Penghasilan tidak bisa diaplikasikan untuk Bayi dan

anak kecil

 Solusi Penanganan missing values

▪ Mengeliminasi objek data

▪ Mengestimasi missing values

▪ Tidak memperhatikan missing value saat analisis

▪ Menggantikan dengan semua kemungkinan nilai

(pembobotan berdasarkan probabilitasnya)

(26)

Duplikasi Data

 Data set mungkin terdapat objek data yang

duplikat

 Penyebab ketika mengumpulkan data dari sumber

yang bermacam-macam

 Contoh:

 Survey dilakukan berdasarkan alamat email padahal

satu orang bisa memiliki lebih dari satu alamat email

 Solusi ?  Data cleaning

(27)

Referensi

Dokumen terkait

Selain itu disebutkan pula pada pasal 142 ayat 1 Reglement Tot Regeling Van Het Rechtswezen In De Gewesten Buiten Java En Madura RBg yakni gugatangugatan perdata dalam tingkat

Kebijakan tersebut dianggap cukup ideal karena: (i) pembelian dalam bentuk gelondongan matang akan menghemat biaya produksi petani, mereka hanya perlu memastikan panen matang

Deskripsi Data Tentang Proses Komunikasi Interpersonal yang dilakukan Pasangan Suami Istri Warga Kelurahan Dupak Kecamatan Krembangan dalam Penyelesaian Konflik ………...

Mereka umumnya menjawab akan selalu membeli produk yang biasa mereka pakai dalam jumlah yang banyak ketika ada diskon atau promo dalam katalog Oriflame, buat stock,

Salah satu PC yang ada di Batam disetting untuk dijadikan RF Gateway, dengan adanya jalur tersebut para briker yang hanya menggunakan Handy Talky (HT) atau RIG juga dapat

Sampel pada penelitian eksperimental ini adalah ekstrak bawang putih ( Allium sativum Linn ) yang dibuat dengan cara maserasi.. Hasil : Hasil untuk uji aktivitas antibakteri

Temuan yang tidak konsisten juga ditemukan ketika persepsi media yang menilai humas universitas memiliki kendali bersama yang cukup baik dan persepsi humas yang menyatakan

Perbedaan dengan penelitian ini adalah pada penelitian Dewi yang diteliti adalah mengenai efektifitas program JKBM pada rumah tangga miskin di Desa Tegal Tugu Kecamatan