DATA MINING
P E R T E M U A N - 3
Illham Faishal Mahdy, S.Stat., M.Stat.
DATA TRANSFORMATION
Data Transformation
Transformasi data dalam data mining mengacu pada proses konversi data mentah ke dalam format yang cocok untuk analisis dan pemodelan. Dengan melakukan transformasi, kita juga dapat memastikan bahwa data bebas dari kesalahan dan inkonsistensi. Tujuan dari transformasi data adalah untuk menyiapkan data untuk data mining sehingga dapat digunakan untuk mengekstrak informasi dan pengetahuan yang bermanfaat dari data.
PROGRAM STUDI SAINS DATA
Data Transformation
Attribute/Feature Construction
Aggregation
Normalization
Encoding
Discretization
PROGRAM STUDI SAINS DATA
Attribute/Feature Construction
Proses ini dilakukan dengan membuat atribut baru yang diperoleh berdasarkan atribut yang tersedia untuk digunakan dalam analisis.
PROGRAM STUDI SAINS DATA
Aggregation
Aggregation adalah proses penggabungan data dari beberapa sumber atau perhitungan statistik untuk mendapatkan gambaran yang lebih tinggi. Ini berguna ketika data memiliki banyak rincian dan kita ingin meringkas informasi tersebut.
Contoh: Menggabungkan transaksi penjualan harian menjadi data bulanan atau tahunan.
PROGRAM STUDI SAINS DATA
Normalization
Normalisasi bertujuan untuk mengubah nilai-nilai variabel sehingga memiliki rentang atau skala yang seragam. Hal ini dapat membantu mencegah variabel dengan rentang nilai yang besar mendominasi perhitungan atau analisis.
PROGRAM STUDI SAINS DATA
Normalization
PROGRAM STUDI SAINS DATA
Min-Max Scaling
PROGRAM STUDI SAINS DATA
Min-Max Scaling
PROGRAM STUDI SAINS DATA
Min-Max Scaling
PROGRAM STUDI SAINS DATA
Z-Score
PROGRAM STUDI SAINS DATA
Z-Score
PROGRAM STUDI SAINS DATA
Z-Score
Contoh:
PROGRAM STUDI SAINS DATA
Tahun Jumlah Penduduk Miskin (Ribu) Tahun Jumlah Penduduk Miskin (Ribu)
2002 71,80 2011 45,44
2003 65,40 2012 43,40
2004 55,90 2013 40,90
2005 54,80 2014 40,64
2006 59,40 2015 39,10
2007 56,60 2016 37,03
2008 57,20 2017 35,89
2009 44,37 2018 35,49
2010 48,40 2019 35,39
Z-Score
Contoh:
PROGRAM STUDI SAINS DATA
Tahun Jumlah Penduduk Miskin (Ribu) Tahun Jumlah Penduduk Miskin (Ribu)
2002 71,80 2011 45,44
2003 65,40 2012 43,40
2004 55,90 2013 40,90
2005 54,80 2014 40,64
2006 59,40 2015 39,10
2007 56,60 2016 37,03
2008 57,20 2017 35,89
2009 44,37 2018 35,49
2010 48,40 2019 35,39
Decimal Scaling
PROGRAM STUDI SAINS DATA
Decimal Scaling
PROGRAM STUDI SAINS DATA
Box-Cox Transformation
Beberapa fitur mengikuti distribusi tertentu:
Misalnya jumlah pengikut twitter didistribusikan log-normal.
Transformasi Box-Cox mengubahnya menjadi distribusi normal.
PROGRAM STUDI SAINS DATA
Box-Cox Transformation
PROGRAM STUDI SAINS DATA
Encoding
Banyak algoritma hanya dapat menangani fitur numerik.
Kita perlu mengkodekan fitur kategorik.
PROGRAM STUDI SAINS DATA
Ordinal Encoding
Tetapkan nilai bilangan bulat ke setiap kategori dalam urutan.
Dapat digunakan jika ada urutan dalam kategori.
Model akan menganggap satu kategori 'lebih tinggi' atau 'lebih dekat' dengan kategori lain.
PROGRAM STUDI SAINS DATA
One-Hot Encoding (Dummy Encoding)
Tambahkan fitur 0/1 baru untuk setiap kategori, tetapkan nilai 1 jika sampel memiliki kategori tersebut.
Jika fitur memiliki banyak nilai, dapat menyebabkan masalah dengan dimensi tinggi.
PROGRAM STUDI SAINS DATA
Discretization
Discretization atau diskretisasi adalah proses dimana kita mengubah variabel kontinu, model atau fungsi menjadi bentuk diskrit.
Seringkali, kita akan lebih mudah untuk memahami data kontinu ketika dibagi dan disimpan ke dalam kategori atau kelompok yang bermakna.
Misalkan, penggantian nilai peubah numerik usia dengan label interval (1-10, 11-20, dan seterusnya) atau label konseptual (anak-anak, remaja, dewasa, tua).
Fitur kontinu memiliki peluang lebih kecil untuk berkorelasi dengan variabel target dan memungkinkan memiliki hubungan non-linear yang kompleks.
Model tertentu mungkin tidak kompatibel dengan data kontinu.
PROGRAM STUDI SAINS DATA
Teknik Discretization
Equal Width Binning: Dalam teknik ini, rentang nilai atribut numerik dibagi menjadi interval yang memiliki lebar yang sama. Misalnya, jika memiliki atribut dengan nilai antara 0 dan 100, kita dapat membaginya menjadi beberapa interval dengan lebar 10, seperti [0-10], [10-20], [20-30], dan seterusnya. Ini adalah metode yang sederhana tetapi mungkin tidak selalu cocok untuk data dengan distribusi yang tidak merata
PROGRAM STUDI SAINS DATA
Teknik Discretization
Equal Frequency Binning: Teknik ini mengelompokkan data ke dalam interval sehingga setiap interval memiliki jumlah data yang sama atau serupa. Ini dapat membantu dalam menangani data dengan distribusi yang tidak merata. Misalnya, membagi data ke dalam interval yang memiliki jumlah observasi yang serupa, seperti 20% dari data dalam setiap interval.
PROGRAM STUDI SAINS DATA
Teknik Discretization
Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34 Partition into equal-frequency (equi-depth) bins:
Bin 1: 4, 8, 9, 15
Bin 2: 21, 21, 24, 25 Bin 3: 26, 28, 29, 34 Smoothing by bin means:
Bin 1: 9, 9, 9, 9
Bin 2: 23, 23, 23, 23 Bin 3: 29, 29, 29, 29
Smoothing by bin boundaries:
Bin 1: 4, 4, 4, 15
Bin 2: 21, 21, 25, 25 Bin 3: 26, 26, 26, 34
PROGRAM STUDI SAINS DATA
Teknik Discretization
Entropy-Based Discretization: Teknik ini menggunakan pengukuran entropi untuk menentukan bagaimana atribut harus dipecah menjadi interval. Tujuan utama adalah mengidentifikasi titik pemotongan yang akan meminimalkan entropi dalam masing-masing interval, sehingga memaksimalkan keterpisahan antara interval.
PROGRAM STUDI SAINS DATA
Teknik Discretization
Clustering-Based Discretization: Dalam pendekatan ini, algoritma clustering seperti k- means digunakan untuk mengelompokkan data ke dalam interval. Interval dibentuk berdasarkan kesamaan antara data dalam setiap cluster. Hasil clustering kemudian digunakan untuk membuat interval diskrit.
PROGRAM STUDI SAINS DATA
Tugas
1. Apa yang akan terjadi jika data tidak dinormalisasi saat digunakan dalam algoritma-algoritma tertentu?
2. Bagaimana cara memilih metode normalisasi yang tepat untuk kasus tertentu?
PROGRAM STUDI SAINS DATA
THANK YOU
Illham Faishal Mahdy, S.Stat., M.Stat.