• Tidak ada hasil yang ditemukan

Data Mining 02 - Bagian 2

N/A
N/A
Alfa Rino Svedrilio

Academic year: 2025

Membagikan "Data Mining 02 - Bagian 2"

Copied!
44
0
0

Teks penuh

(1)

For the Glory of the Nation

Data Mining

Concepts & Techniques

Mengenal Data dan Data Pre-Processing

DOSEN PENGAMPU:

Dwi Welly Sukma Nirad, M.T.

Aina Hubby Aziira, M.Eng.

(2)

MENGENAL DATA

(3)

For the Glory of the Nation

Record

Relational records

Data matrix, e.g., numerical matrix, crosstabs

Document data: text documents: term-frequency vector

Transaction data

Graph and network

Social or information networks

Molecular Structures

Transportations network

Ordered

Video data: sequence of images

Temporal data: time-series

Sequential Data: transaction sequences

Spatial, image and multimedia:

Spatial data: maps

Image data

Video data

Jenis-Jenis Dataset

Document 1

season

timeout

lost

wingame

score

ballplaycoach

team

Document 2 Document 3

3 0 5 0 2 6 0 2 0 2

0 0

7 0 2 1 0 0 3 0 0

1 0 0 1 2 2 0 3 0

TID Items

1 Bread, Coke, Milk 2 Beer, Bread

3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk

(4)

• Data terstruktur

• Merupakan data yang sudah siap untuk diproses karena memiliki format yang tetap.

• Data tidak terstruktur

• Merupakan data yang belum memiliki atau bentuk secara khusus dan formatnya juga beragam, hanya memiliki nilai setelah diproses.

• Data semi terstruktur

• Data yang mengandung data terstruktur dan tidak terstruktur. Walaupun belum diklasifikasi oleh repository tertentu (database), namun

mengandung informasi yang penting.

Jenis-Jenis Dataset

(5)

For the Glory of the Nation

Jenis-Jenis Dataset

(6)

For the Glory of the Nation

Dimensionality (dimensionalitas)

• Fenomena dimana semakin banyak dimensi dalam data, semakin sulit dan rumit untuk menganalisis, memahami, dan memproses data tersebut  Curse of dimensionality.

• Contohnya, ketika jumlah variabel sangat besar dalam sebuah dataset, maka setiap pengamatan dalam dataset dapat dikatakan sebagai titik dalam ruang yang sangat berdimensi tinggi. Hal ini bisa mengakibatkan ketidakefektifan penggunaan teknik analisis data.

• Oleh karena itu, dalam analisis data, penting untuk mempertimbangkan jumlah dimensi dalam data dan memilih variabel yang paling relevan dan signifikan untuk analisis. Pemilihan variabel yang relevan dan signifikan dapat membantu menghindari curse of dimensionality dan meningkatkan efektivitas analisis.

Sorotan dalam Data Terstruktur

(1)

(7)

For the Glory of the Nation

Sparsity (keterbatasan/jarang)

• Istilah yang digunakan untuk menggambarkan persentase sel dalam tabel database yang tidak diisi atau bernilai NULL atau EMPTY. Sedangkan dalam analisis data, hanya yang berisi yang diperhitungkan.

• Contohnya, jika sebuah dataset terstruktur menyimpan informasi tentang transaksi belanja di sebuah toko online, matriks pembelian pelanggan dapat dihasilkan

dengan produk sebagai kolom dan pelanggan sebagai baris. Namun, karena

sebagian besar pelanggan hanya membeli beberapa produk saja, maka sebagian besar sel dalam matriks pembelian pelanggan akan kosong atau bernilai nol.

• Sparsity akan mempengaruhi keakuratan dan efektivitas teknik analisis data.

Sorotan dalam Data Terstruktur

(2)

(8)

For the Glory of the Nation

Resolution (resolusi)

Ini berkaitan dengan jumlah informasi yang disimpan dalam setiap record atau baris dalam data.

Semakin tinggi resolusi data, semakin banyak detail yang disimpan dalam setiap record.

Contohnya, dalam sebuah database pelanggan yang berisi informasi tentang nama, alamat, nomor telepon, dan email pelanggan, jika informasi lebih detail tentang jenis produk atau layanan yang dibeli oleh pelanggan juga disimpan dalam database, maka resolusi data akan lebih tinggi. Namun, jika hanya informasi umum tentang pembelian pelanggan yang disimpan, maka resolusi data akan lebih rendah.

Namun, semakin rendah resolusi data, semakin mudah untuk menganalisis dan memproses data.

Oleh karena itu, dalam analisis data, penting untuk memilih resolusi data yang sesuai dengan tujuan analisis dan ketersediaan data.

Sorotan dalam Data Terstruktur

(3)

(9)

For the Glory of the Nation

Distribution (distribusi)

• Distribusi data terstruktur merujuk pada pola bagaimana nilai-nilai data tersebar atau terdistribusi dalam sebuah dataset terstruktur. Distribusi ini dapat memberikan informasi tentang karakteristik dan sifat data, seperti rentang nilai, kecenderungan sentral, variabilitas, dan asimetri dalam distribusi nilai.

• Contohnya, jika sebuah dataset terstruktur mengandung informasi tentang gaji karyawan dalam sebuah perusahaan, distribusi data dapat memberikan informasi tentang rentang gaji, gaji rata-rata atau median, serta bagaimana nilai-nilai gaji tersebut terdistribusi di antara karyawan.

• Dalam analisis data, pemahaman tentang distribusi data terstruktur sangat penting karena dapat mempengaruhi hasil analisis dan interpretasi data.

Sorotan dalam Data Terstruktur

(4)

(10)

For the Glory of the Nation

• Dataset terdiri dari data object.

• Sebuah data object mewakili sebuah entitas.

• Contoh:

• Database penjualan: pelanggan, produk, penjual

• Database universitas: mahasiswa, dosen, mata kuliah

• Nama lain: samples, examples, instances, data points, objects, tuples.

• Data object dideskripsikan oleh atribut.

• Baris -> data object; kolom ->atribut.

Data Objects

(11)

For the Glory of the Nation

• Atribut (dimensi, fitur, variabel): karakteristik atau sifat yang dimiliki oleh suatu data object atau entitas dalam sebuah sistem. Atribut data

digunakan untuk menjelaskan dan membedakan satu data object atau entitas dari data object atau entitas lainnya dalam sebuah koleksi data.

• Contoh: customer_ID, name, address

• Pemilihan dan pengaturan atribut data yang tepat sangat penting dalam pengelolaan data dan analisis data, karena atribut yang tepat dapat

membantu mengidentifikasi dan membedakan data object atau entitas dengan lebih efektif dan akurat.

Atribut Data

(12)

Tipe-Tipe Atribut

Kualitatif Kuantitatif

Nominal Ordinal Biner

Simetris Asimetris

Numerik Diskrit Kontinu

(13)

For the Glory of the Nation

• Nominal: kategori, pernyataan, atau “nama sesuatu”

• Warna rambut = {hitam, coklat, merah, abu-abu, putih}

• Status perkawinan, pekerjaan, kode pos, nomor identitas

• Ordinal

• Nilai memiliki urutan yang bermakna (peringkat) tetapi besarnya antara nilai yang berurutan tidak diketahui

• Size = {small, medium, large}, grades, army rankings

• Binary

• Hanya bernilai 0 dan 1

• Symmetric binary: kedua nilai sama pentingnya

• Contoh: jenis kelamin

• Asymmetric binary: nilai keduanya tidak sama.

• Contoh: hasil tes medis (positif vs. negatif)

• Yang paling langka biasanya ditulis 1 (misal: positif covid)

Tipe-Tipe Atribut

(14)

• Numerik

• Integer, real

• Contoh: angka (56, 990, 65.54)

• Interval

• Perbedaan antar nilai merupakan sesuatu yang berarti, bahkan tidak ada 0 yang benar-benar 0 (tiada)

• Contoh: temperature

• Rasio

• Perbedaan rasio merupakan sesuatu yang berarti, 0 berarti 0/tiada

• Contoh: panjang

Tipe-Tipe Atribut

(15)

For the Glory of the Nation

Diskrit

• Hanya memiliki kumpulan nilai yang terbatas (berhingga) atau tak berhingga tapi dapat dihitung. Atribut diskrit dapat dinyatakan dalam bentuk numerik, namun nilai-nilainya tidak memiliki interpretasi

aritmatik.

• Contoh: usia, nomor KTP, jumlah siswa

Kontinu

• Memiliki bilangan real sebagai nilai atribut, biasanya direpresentasikan sebagai variabel floating-point (desimal). Nilai-nilai atribut kontinu terdiri dari himpunan bilangan real, dan nilai-nilainya dapat memiliki interpretasi aritmatik.

• Contoh: temperatur, panjang, tinggi, pendapatan

Atribut Diskrit & Kontinu

(Pengelompokan Tipe Data Berdasarkan Jumlah Nilai)

(16)

Setelah mengetahui topik-topik tadi, apa yang bisa disimpulkan

atau diterapkan pada aktivitas

data mining?

(17)

For the Glory of the Nation

• Pengetahuan tentang tipe-tipe data memainkan peran penting dalam aktivitas data mining, seperti:

Pemilihan algoritma

Pemilihan metode preprocessing

Interpretasi hasil

Pengembangan model

Pengambilan keputusan

Dll.

Refleksi

(18)

DATA PREPROCESSING

(19)

For the Glory of the Nation

• Data preprocessing atau pra-pemrosesan data adalah suatu tahap awal dalam proses data mining yang bertujuan untuk membersihkan,

mengubah, dan mempersiapkan data mentah (raw data) sebelum dilakukan analisis data.

• Dalam tahap preprocessing ini, data mentah diproses dan dibentuk

sedemikian rupa sehingga siap untuk diolah oleh algoritma data mining.

Data Preprocessing

(20)

For the Glory of the Nation

(21)

For the Glory of the Nation

21

Kenapa Melakukan Data Preprocessing?

• Data dalam dunia nyata itu kotor

Tak-lengkap: nilai-nilai atribut kurang, atribut tertentu yang dipentingkan tidak disertakan, atau hanya memuat data agregasi

• Misal, pekerjaan = “”

Noisy: memuat error atau memuat outliers (data yang secara nyata berbeda dengan data-data yang lain)

• Misal, Salary=“-10”

Tak-konsisten: memuat perbedaan dalam kode atau nama

• Misal, Age=“42” Birthday=“03/07/1997”

• Misal, rating sebelumnya “1,2,3”, sekarang rating “A, B, C”

• Misal, perbedaan antara duplikasi record

(22)

For the Glory of the Nation

Data Kotor?

(23)

For the Glory of the Nation

Apa penyebab data kotor?

(24)

For the Glory of the Nation

Penyebab Data Kotor

• Ketidaklengkapan data datang dari…

Nilai data tidak tersedia saat dikumpulkan

Perbedaan pertimbangan waktu antara saat data dikumpulkan dan saat data dianalisa.

Masalah manusia, hardware, dan software

• Noisy data datang dari proses data:

Pengumpulan

Pemasukan (entry)

Transmisi

• Ketidakkonsistenan data datang dari …

Sumber data yang berbeda

Pelanggaran kebergantungan fungsional

(25)

For the Glory of the Nation

25

Data Quality

• Memastikan kualitas data, melalui:

• Accuracy: benar/salah, akurat/tidak, …

• Completeness: data tidak terekam, tidak tersedia, …

• Consistency: pembaruan menyeluruh atau tidak, …

• Timeliness: apakah pembaruannya tepat waktu?

• Believability: seberapa tepercaya kebenaran datanya?

• Interpretability: seberapa mudah data dapat dipahami?

(26)

For the Glory of the Nation

Tahapan dalam Data Preprocessing

Data cleaning

Mengisi nilai-nilai yang hilang, menghaluskan noisy data, mengenali atau menghilangkan outlier

Data integration

Mengintegrasikan banyak database atau banyak file

Data transformation

Mengubah format data, struktur, atau nilai data; Normalisasi

Data reduction

Mengurangi data dengan merangkum atau memilih representasi data yang sesuai

Data discretization

Bagian dari data reduction namun dengan kepentingan khusus, terutama data numerik

(27)

For the Glory of the Nation

Tahapan dalam Data Preprocessing

27

(28)

For the Glory of the Nation

Contoh Data Kotor

• Data karyawan

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 100 Izin

(29)

For the Glory of the Nation

• Data karyawan

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 100 Izin

29

Incomplete Noisy

Inconsistent

(30)

For the Glory of the Nation

Menangani Missing Data

• Mengabaikan tuple: biasanya dilakukan ketika label kelas tidak ada (saat melakukan klasifikasi)

• Isi nilai yang hilang secara manual

• Isi secara otomatis dengan:

• Konstanta global: e.g., “unknown”

• Menggunakan nilai rata-rata atribut

• Rata-rata atribut untuk seluruh sampel yang masuk ke dalam kelas yang sama

• Nilai yang paling mungkin (berbasis inferensi seperti regresi, rumus Bayesian, atau decision tree)

(31)

For the Glory of the Nation

31

Cara 1: Menghapus Record

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

Asal Gender Salary Status

Padang P 200 Cuti

Medan P 100 Cuti

Jakarta L 10000000 Izin

Medan L 300 Izin

(32)

For the Glory of the Nation

Cara 2: Menggunakan Nilai Dominan

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta L 100 Izin

Jakarta L 300 Izin

Medan P 100 Cuti

Bandung P 100 Izin

Jakarta L 100 Izin

Medan L 300 Izin

(33)

For the Glory of the Nation

33

Cara 3: Menggunakan Pola

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta L 300 Izin

Jakarta L 300 Izin

Medan P 100 Cuti

Bandung P 100 Cuti

Jakarta L 300 Izin

Medan L 300 Izin

(34)

For the Glory of the Nation

Cara 4: Memberikan Semua Variasi Nilai

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta L 100 Izin

Jakarta L 100 Cuti

Jakarta L 200 Izin

Jakarta L 200 Cuti

Jakarta L 300 Izin

Jakarta L 300 Cuti

Jakarta L 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

(35)

For the Glory of the Nation

35

Cara 5: Memberi Nilai Rata-Rata

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta L 143 Izin

Jakarta L 300 Izin

Medan P 100 Cuti

Bandung P 100 Izin

Jakarta L 143 Izin

Medan L 300 Izin

(36)

For the Glory of the Nation

36

Data Integration

Data integration:

• Menggabungkan data dari berbagai sumber ke dalam penyimpanan yang koheren

• Melakukan integrasi data dapat meningkat keuntungan perusahaan karena dapat meminimalisir kesalahan yang disebabkan manusia

• Tantangan data integration

• Identifikasi entitas

• Identifikasi atribut yang berkorelasi

• Duplikasi tupel/redundan

• Konflik data

(37)

For the Glory of the Nation

37

Data Integration

Asal Gender Salary Status

Padang P 200 Cuti

Jakarta Laki Izin

Jakarta 300 Izin

Medan P 100 Cuti

Bandung P 100 0

Jakarta L 10000000 Izin

Medan L 300 Izin

IDKota Asal Gender Penempatan

ID0012 Padang P Gedung B

ID0022 Jakarta L Gedung A

ID0022 Jakarta L Gedung A

ID0013 Medan P Gedung B

ID0023 Bandung P Gedung B

ID0022 Jakarta L Gedung A

ID0013 Medan L Gedung A

IDKota Kota ID0012 Padang ID0022 Jakarta ID0013 Medan ID0023 Bandung

Gender Penempatan L Gedung A P Gedung B

Salary Status

200 Cuti

143 Izin

300 Izin

100 Cuti

100 Izin

143 Izin

300 Izin

(38)

For the Glory of the Nation

38

Masalah Data Integration

• Problem: integrasi skema heterogen

• Nama-nama atribut berbeda

• Unit berbeda: Sales dalam $, sales dalam Yen, sales dalam Rp

• Atribut turunan: Annual salary versus monthly salary

cid name byear 1 Jones 1960 2 Smith 1974 3 Smith 1950

Customer-ID state

1 NY

2 CA

3 NY

cid monthlySalary

1 5000

2 2400

3 3000

cid Salary 6 50,000 7 100,000 8 40,000

(39)

For the Glory of the Nation

39 39

Masalah Data Integration

• Problem: ketidak-konsistenan karena redundansi

• Customer dengan customer-id 150 punya 3 anak dalam relation1 dan 4 anak dalam relation2

• Komputasi annual salary dari monthly salary dalam relation1 tak cocok dengan atribut “annual-salary” dalam relation2

cid numChildren

1 3

cid numChildren

1 4

(40)

For the Glory of the Nation

Data Reduction

• Data reduction: mengurangi volume data, namun tetap menghasilkan hasl analilsis yang sama (atau hampir sama).

• Why data reduction? — analisis data yang kompleks

mungkin membutuhkan waktu yang sangat lama untuk

dijalankan pada kumpulan data yang lengkap.

(41)

For the Glory of the Nation

41 41

Data Transformation

• Penghalusan: menghilangkan noise dari data

• Agregasi: ringkasan, konstruksi kubus data

• Generalisasi: konsep hierarchy climbing

• Normalisasi: diskalakan agar jatuh didalam suatu range kecil yang tertentu

• Normalisasi min-max

• Normalisasi z-score

• Normalisasi dengan penskalaan desimal

• Konstruksi atribut/fitur

• Atribut-atribut baru dibangun dari atribut-atribut yang ada

(42)

Ada Pertanyaan?

(43)

For the Glory of the Nation

43 43

Tugas

1. Buatlah ringkasan materi pertemuan hari ini.

2. Diketahui data atribut umur sebagai berikut: 13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. Tentukanlah mean, median, mode, dan midrange dari data

tersebut.

3. Diberikan dua objek yang diwakili oleh tupel (22, 1, 42, 10) dan (20, 0, 36, 8). Hitunglah jarak Euclidean dan jarak Manhattan antara dua

benda tersebut.

4. Jelaskanlah secara detail mengenai data cleaning, data integration,

dan data reduction dalam data mining.

(44)

Terima Kasih!

Dwi Welly Sukma Nirad, M.T.

[email protected]

Referensi:

Data Mining Concepts and Techniques 3rd edition, Han, Jiawei; Kamber, Micheline, and Jian Pei, Morgan Kaufmann, 2011

Referensi

Dokumen terkait

Hasil pengujian terhadap nilai siswa SMA Negeri 2 Surakarta pada data testing yang dilakukan sebanyak lima kali secara random, diperoleh rata-rata persentase ke- akuratan sebesar

pembersihan data, pembangun telah memilih untuk menggunakan dua kaedah iaitu menggantikan nilai yang hilang dengan dua pembolehubah global iaitu 'UNKNOWN' dan 'O'

K-Means Clustering adalah, K dimaksudkan sebagai konstanta jumlah cluster yang diinginkan, Means dalam hal ini berarti nilai suatu ratarata dari suatu grup data yang dalam

Semua data yang sudah di cleaning, dikelompokan sesuai dengan tahapan algoritma C4.5 disini akan ditentukan nilai gain dan nilai entropy dari seluruh data yang diolah

Semua data yang sudah di cleaning, dikelompokan sesuai dengan tahapan algoritma C4.5 disini akan ditentukan nilai gain dan nilai entropy dari seluruh data yang diolah

Untuk gugus data yang memiliki nilai yang hilang, dalam analisis faktor komponen utama bagian yang tidak lengkap (y * ) diestimasi dari variabel observasi yang