• Tidak ada hasil yang ditemukan

Transformasi Data dalam Data Mining

N/A
N/A
Ilham Faishal

Academic year: 2025

Membagikan "Transformasi Data dalam Data Mining"

Copied!
30
0
0

Teks penuh

(1)

DATA MINING

P E R T E M U A N - 3

Illham Faishal Mahdy, S.Stat., M.Stat.

(2)

DATA TRANSFORMATION

(3)

Data Transformation

Transformasi data dalam data mining mengacu pada proses konversi data mentah ke dalam format yang cocok untuk analisis dan pemodelan. Dengan melakukan transformasi, kita juga dapat memastikan bahwa data bebas dari kesalahan dan inkonsistensi. Tujuan dari transformasi data adalah untuk menyiapkan data untuk data mining sehingga dapat digunakan untuk mengekstrak informasi dan pengetahuan yang bermanfaat dari data.

PROGRAM STUDI SAINS DATA

(4)

Data Transformation

 Attribute/Feature Construction

 Aggregation

 Normalization

 Encoding

 Discretization

PROGRAM STUDI SAINS DATA

(5)

Attribute/Feature Construction

Proses ini dilakukan dengan membuat atribut baru yang diperoleh berdasarkan atribut yang tersedia untuk digunakan dalam analisis.

PROGRAM STUDI SAINS DATA

(6)

Aggregation

Aggregation adalah proses penggabungan data dari beberapa sumber atau perhitungan statistik untuk mendapatkan gambaran yang lebih tinggi. Ini berguna ketika data memiliki banyak rincian dan kita ingin meringkas informasi tersebut.

Contoh: Menggabungkan transaksi penjualan harian menjadi data bulanan atau tahunan.

PROGRAM STUDI SAINS DATA

(7)

Normalization

Normalisasi bertujuan untuk mengubah nilai-nilai variabel sehingga memiliki rentang atau skala yang seragam. Hal ini dapat membantu mencegah variabel dengan rentang nilai yang besar mendominasi perhitungan atau analisis.

PROGRAM STUDI SAINS DATA

(8)

Normalization

PROGRAM STUDI SAINS DATA

(9)

Min-Max Scaling

 

PROGRAM STUDI SAINS DATA

(10)

Min-Max Scaling

PROGRAM STUDI SAINS DATA

(11)

Min-Max Scaling

 

PROGRAM STUDI SAINS DATA

(12)

Z-Score

 

PROGRAM STUDI SAINS DATA

(13)

Z-Score

PROGRAM STUDI SAINS DATA

(14)

Z-Score

Contoh:

PROGRAM STUDI SAINS DATA

Tahun Jumlah Penduduk Miskin (Ribu) Tahun Jumlah Penduduk Miskin (Ribu)

2002 71,80 2011 45,44

2003 65,40 2012 43,40

2004 55,90 2013 40,90

2005 54,80 2014 40,64

2006 59,40 2015 39,10

2007 56,60 2016 37,03

2008 57,20 2017 35,89

2009 44,37 2018 35,49

2010 48,40 2019 35,39

 

 

(15)

Z-Score

Contoh:

PROGRAM STUDI SAINS DATA

Tahun Jumlah Penduduk Miskin (Ribu) Tahun Jumlah Penduduk Miskin (Ribu)

2002 71,80 2011 45,44

2003 65,40 2012 43,40

2004 55,90 2013 40,90

2005 54,80 2014 40,64

2006 59,40 2015 39,10

2007 56,60 2016 37,03

2008 57,20 2017 35,89

2009 44,37 2018 35,49

2010 48,40 2019 35,39

 

 

 

(16)

Decimal Scaling

 

PROGRAM STUDI SAINS DATA

(17)

Decimal Scaling

 

PROGRAM STUDI SAINS DATA

(18)

Box-Cox Transformation

 Beberapa fitur mengikuti distribusi tertentu:

 Misalnya jumlah pengikut twitter didistribusikan log-normal.

 Transformasi Box-Cox mengubahnya menjadi distribusi normal.

PROGRAM STUDI SAINS DATA

(19)

Box-Cox Transformation

PROGRAM STUDI SAINS DATA

(20)

Encoding

 Banyak algoritma hanya dapat menangani fitur numerik.

 Kita perlu mengkodekan fitur kategorik.

PROGRAM STUDI SAINS DATA

(21)

Ordinal Encoding

 Tetapkan nilai bilangan bulat ke setiap kategori dalam urutan.

 Dapat digunakan jika ada urutan dalam kategori.

 Model akan menganggap satu kategori 'lebih tinggi' atau 'lebih dekat' dengan kategori lain.

PROGRAM STUDI SAINS DATA

(22)

One-Hot Encoding (Dummy Encoding)

 Tambahkan fitur 0/1 baru untuk setiap kategori, tetapkan nilai 1 jika sampel memiliki kategori tersebut.

 Jika fitur memiliki banyak nilai, dapat menyebabkan masalah dengan dimensi tinggi.

PROGRAM STUDI SAINS DATA

(23)

Discretization

Discretization atau diskretisasi adalah proses dimana kita mengubah variabel kontinu, model atau fungsi menjadi bentuk diskrit.

Seringkali, kita akan lebih mudah untuk memahami data kontinu ketika dibagi dan disimpan ke dalam kategori atau kelompok yang bermakna.

Misalkan, penggantian nilai peubah numerik usia dengan label interval (1-10, 11-20, dan seterusnya) atau label konseptual (anak-anak, remaja, dewasa, tua).

Fitur kontinu memiliki peluang lebih kecil untuk berkorelasi dengan variabel target dan memungkinkan memiliki hubungan non-linear yang kompleks.

Model tertentu mungkin tidak kompatibel dengan data kontinu.

PROGRAM STUDI SAINS DATA

(24)

Teknik Discretization

Equal Width Binning: Dalam teknik ini, rentang nilai atribut numerik dibagi menjadi interval yang memiliki lebar yang sama. Misalnya, jika memiliki atribut dengan nilai antara 0 dan 100, kita dapat membaginya menjadi beberapa interval dengan lebar 10, seperti [0-10], [10-20], [20-30], dan seterusnya. Ini adalah metode yang sederhana tetapi mungkin tidak selalu cocok untuk data dengan distribusi yang tidak merata

PROGRAM STUDI SAINS DATA

(25)

Teknik Discretization

Equal Frequency Binning: Teknik ini mengelompokkan data ke dalam interval sehingga setiap interval memiliki jumlah data yang sama atau serupa. Ini dapat membantu dalam menangani data dengan distribusi yang tidak merata. Misalnya, membagi data ke dalam interval yang memiliki jumlah observasi yang serupa, seperti 20% dari data dalam setiap interval.

PROGRAM STUDI SAINS DATA

(26)

Teknik Discretization

Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition into equal-frequency (equi-depth) bins:

Bin 1: 4, 8, 9, 15

Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 Smoothing by bin means:

Bin 1: 9, 9, 9, 9

Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29

Smoothing by bin boundaries:

Bin 1: 4, 4, 4, 15

Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34

PROGRAM STUDI SAINS DATA

(27)

Teknik Discretization

Entropy-Based Discretization: Teknik ini menggunakan pengukuran entropi untuk menentukan bagaimana atribut harus dipecah menjadi interval. Tujuan utama adalah mengidentifikasi titik pemotongan yang akan meminimalkan entropi dalam masing-masing interval, sehingga memaksimalkan keterpisahan antara interval.

PROGRAM STUDI SAINS DATA

(28)

Teknik Discretization

Clustering-Based Discretization: Dalam pendekatan ini, algoritma clustering seperti k- means digunakan untuk mengelompokkan data ke dalam interval. Interval dibentuk berdasarkan kesamaan antara data dalam setiap cluster. Hasil clustering kemudian digunakan untuk membuat interval diskrit.

PROGRAM STUDI SAINS DATA

(29)

Tugas

1. Apa yang akan terjadi jika data tidak dinormalisasi saat digunakan dalam algoritma-algoritma tertentu?

2. Bagaimana cara memilih metode normalisasi yang tepat untuk kasus tertentu?

PROGRAM STUDI SAINS DATA

(30)

THANK YOU

Illham Faishal Mahdy, S.Stat., M.Stat.

Referensi

Dokumen terkait

Visualisasi Data mining : proses menemukan kandungan yang tersembunyi dapat menjadi pengetahuan yang bermanfaat khususnya dari data yang besar dengan menggunakan teknik

Transformasi data dilakukan untuk mengubah beberapa nilai atribut yang awalnya bernilai nominal menjadi nilai-nilai atribut yang sesuai dengan data pada tabel 2 agar

5.2.Perangkat lunak yang dihasilkan mampu menerapkan proses data mining untuk mengklasifikasikan penyakit ispa dengan atribut yang paling berpengaruh yang pertama adalah

Proses data mining dengan metode decission tree algoritma C.45 dimulai dari pembentukan decision system sebagai data awal yang memiliki nilai atribut kondisi dan

Pada tahap pengolahan ada beberapa kegiatan sesuai dengan tahapan yang ada pada data mining, yaitu pembersihan data, integrasi data, seleksi data,

Dalam data mining, perlu menemukan pengetahuan dalam bentuk pola yang nantinya akan diekstrak menjadi informasi yang akan bermanfaat untuk selnajutnya dilakukan

Data Mining merupakan salah satu proses, maka dipecah beberapa tahapan yaitu koleksi data, seleksi data, preprocessing, transformasi data, Data Mining yang akan digunakan adalah

Dokumen ini membahas tentang Data Mining dengan fokus pada algoritma Decision