Pusdiklat - Kementerian Komunikasi dan Informatika
#JadiJagoanDigital
VISUALISASI DATA
Topik 3: Data Preprocessing
Mata pelatihan ini memberikan peserta kemampuan untuk menerapkan data preprocessing
Deskripsi Singkat
Tujuan Pembelajaran
Setelah mengikuti pembelajaran ini, peserta diharapkan mampu menerapkan data preprocessing
Hasil Belajar Indikator Hasil Belajar
Setelah pembelajaran, peserta dapat
1. Menjelaskan Urgensi Data Preprocessing
2. Menjelaskan Data Source Looker Studio
3. Menerapkan Data Preprocessing
Task
Outline Materi
1. Urgensi Data Preprocessing
• Data Quality Attributes
• Urgensi Data Preprocessing
• Dirty Data
• Data Preprocessing Task
2. Pengenalan Data Source Looker Studio
• Jenis Sumber Data Pada Looker Studio
• Kriteria Data Untuk Looker Data Studio
3. Praktik Data Preprocessing
• Menyeragamkan format kode pemesanan
• Menyeragamkan kode pelanggan
• Encoding latitude longitude provinsi
• Memisahkan teks menjadi kolom
You’re Here
Define Prototype Build Deploy
“Data scientists spend 60% of their time on cleaning and organizing data.”
-Forbes-
sumber
Apa pendapat Anda terkait data ini?
Accuracy
Completeness
Consistency
Timeliness Validity
Uniqueness
Data Quality Attributes
Data Quality Attributes (1)
Atribut Penjelasan Contoh Penerapan yang Baik Contoh Penerapan yang Buruk
Accuracy (Akurasi)
Mengukur sejauh mana data mencerminkan kebenaran dari entitas atau kejadian yang
direpresentasikan. Data yang akurat adalah data yang sesuai dengan keadaan yang sebenarnya.
Pemerintah menggunakan sistem perekaman data yang otomatis dan validasi ganda untuk memastikan bahwa data penduduk yang disimpan
dalam basis data adalah akurat dan sesuai dengan identitas resmi
Ketika data penduduk tidak diperbarui secara berkala, menyebabkan keberadaan penduduk yang meninggal masih terdaftar dalam basis data, menghasilkan data yang tidak akurat
Completeness (Kelengkapan)
Mengacu pada sejauh mana data lengkap dan tidak ada kekosongan dalam informasi yang
direpresentasikan.
Sistem pemerintah memiliki mekanisme validasi yang memastikan bahwa setiap entitas yang diperlukan memiliki entri yang sesuai dalam basis data.
Data mengenai penduduk yang tinggal di daerah terpencil mungkin tidak lengkap karena sulitnya akses dan pembaruan data
datacamp
Data Quality Attributes (2)
Atribut Penjelasan Contoh Penerapan yang Baik Contoh Penerapan yang Buruk
Consistency (Konsistensi)
Mengacu pada keseragaman data dalam beberapa sumber atau bagian dari sistem informasi
Basis data pemerintah memastikan bahwa data
kependudukan adalah sama di semua aplikasi yang
memanfaatkan data kependudukan.
Ketika data kependudukan warga dalam database di suatu instansi tidak konsisten dengan instansi lain.
Timeliness (Ketepatan Waktu)
Mengukur seberapa cepat data diperbarui dan tersedia untuk digunakan setelah peristiwa yang sesuai terjadi.
Informasi data kependudukan dalam database pemerintah diperbarui secara real-time atau dengan jadwal yang teratur.
Data mengenai kependudukan tidak diperbarui dalam
beberapa tahun, sehingga tidak mencerminkan situasi status kependudukan yang sebenarnya.
Data Quality Attributes (3)
Atribut Penjelasan Contoh Penerapan yang
Baik
Contoh Penerapan yang Buruk
Validity
(Keabsahan)
Mengacu pada sejauh mana data sesuai dengan aturan dan batasan yang ditetapkan
Pemerintah menggunakan validasi otomatis untuk memastikan bahwa nomor identitas warga yang
dimasukkan dalam database adalah format yang benar.
Ketika data yang dimasukkan tidak melewati proses
validasi, seperti format nomor identitas yang tidak valid, menyebabkan kesalahan dalam pengolahan data.
Uniqueness (Keunikan)
Menentukan apakah setiap entitas dalam data hanya muncul satu kali, sehingga tidak ada duplikasi.
Basis data penduduk
memastikan bahwa setiap nomor identitas unik dan hanya terdaftar sekali.
Adanya duplikasi dalam daftar penerima bantuan sosial karena kurangnya validasi keunikan.
Urgensi Data Preprocessing
Real world data are dirty
● Tidak Lengkap (banyak data kosong)
● Noisy / banyak outlier
● Tidak Berkualitas (tidak konsisten, tidak akurat, dll)
Some Information are hidden within data
•Informasi dapat diekstrak dari
data yang ada (umur dapat
dihitung dari tanggal lahir)
Mengapa Data bisa Kotor?
01
02 03
Missing Data (data yang hilang)
● Responden tidak merespon pada survei
● Kehilangan data dalam proses
● Kesalahan entri data
Data Noise
● Instrumen pengumpulan data yang salah
● Masalah transmisi data
● Inkonsistensi dalam konvensi penamaan
Masalah Lain
● Baris duplikat
● Data tidak lengkap
● Data tidak konsisten
Data Preprocessing Task
1
Data Cleaning
● Menangani nilai yang kosong (missing value)
● Menghapus data duplikat
● Identifikasi dan menangani
data pencilan (outlier) 2
Data Transformation
● Editing
● Encoding
Menangani Missing value: Penghapusan
Dihapus
● Jika sebagian besar baris atau kolom berisi nilai null (empty object)
● Jika variabel yang berisi null tidak penting dalam analisis
Contoh Missing Value
Contoh Distribusi
Menangani Missing value
Diisi
Berdasarkan Tipe Data
●
Mean (data interval &ratio)
●
Median (data ordinal)●
Mode (nominal, ordinal,interval, ratio)
Berdasarkan Distribusi Data
●
Mean (normaldistribution)
●
Median (normaldistribution,
positively/negatively skewness)
●
Mode (normaldistribution) Constant Imputation
i.e “0”, “99”, “Tidak bersedia menjawab” dll
Contoh
Data
Menghapus Data Duplikat
● Terdapat dua baris atau lebih yang memiliki data yang identik
● Buang baris yang duplikat sehingga hanya terdapat baris dengan
data yang unik
Identifikasi Outlier
Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset.
1. Visualisasi Data: menggunakan grafik seperti scatter plot, box plot, atau histogram untuk mengidentifikasi titik-titik data yang jauh dari pola umum.
2. Statistik Deskriptif: memeriksa statistik deskriptif seperti mean, median, dan standar deviasi. Titik data yang jauh dari mean atau median, atau memiliki standar deviasi yang tinggi, berpotensi menjadi outlier.
3. Metode Matematis: menggunakan metode
matematis seperti z-score atau IQR
(Interquartile Range) untuk menentukan
apakah sebuah data di luar batas yang
ditetapkan.
Menangani Outlier
Penanganan outlier tergantung pada konteks dan tujuan analisis Anda. Outlier bisa menjadi sinyal penting tentang keadaan alami data, atau bisa juga menjadi gangguan yang perlu ditangani dengan hati-hati, sehingga menjadi penting untuk mengetahui sumber outlier atau karakteristik data.
Penanganan outlier dijelaskan sebagai berikut:
1. Diabaikan
Jika karakteristik alami data memang sewajarnya terdapat outlier 2. Dihapus
Jika outlier disebabkan oleh kesalahan pengukuran atau data yang tidak valid 3. Ditransformasikan
- Mengubah skala data (normalisasi) untuk menangani outlier tanpa harus menghapusnya.
- Menggunakan metode robust, seperti median atau mean trimming (menghapus persentil atas dan bawah data) bisa digunakan jika outlier tidak dapat dihapus tetapi mempengaruhi analisis.
- Menggunakan teknik imputasi dengan mengganti nilai outlier dengan nilai lain. Nilai pengganti
ini bisa berupa mean, median, atau modus dari kumpulan data
Editing
Nama Peserta Asal Instansi
Andi Koinfo
Budi Kominfo
Cici Kemenkominfo
Didi Kementerian Komunikasi dan Informatika
Nama Peserta Asal Instansi
Andi Kementerian Komunikasi dan Informatika Budi Kementerian Komunikasi dan Informatika Cici Kementerian Komunikasi dan Informatika Didi Kementerian Komunikasi dan Informatika
1 1 1 1
Koinfo Kominfo Kemenkominfo Kementerian Komunikasi dan
Informatika
Asal Instansi
4
Kementerian Komunikasi dan Informatika
Asal Instansi
Encoding
● Encoding adalah proses mentransformasikan data string ke data numerik.
● Encoding diperlukan dalam kalkulasi data
Data Asli Referensi Encoding Hasil Encoding
ID Tingkat Kepuasan
VDM-021 Baik
VDM-022 Cukup
VDM-023 Kurang
VDM-025 Baik
VDM-026 Kurang
Kode Kategori
3 Baik
2 Cukup
1 Kurang
ID Tingkat Kepuasan
VDM-021 3
VDM-022 2
VDM-023 1
VDM-025 3
VDM-026 1
Pusdiklat - Kementerian Komunikasi dan Informatika
#JadiJagoanDigital
Pengenalan
Data Source Looker Studio
Jenis Sumber Data pada Looker Data Studio
Jenis Sumber Data pada Looker Data Studio (2)
Kriteria Data untuk Looker Studio
Tabel 2 dimensi/
Flat Table
Terdiri dari baris dan kolom tanpa merge cell
Bukan data agregasi
Berupa data mentah
1 2
VS
Mana yang memenuhi kriteria?
Pusdiklat - Kementerian Komunikasi dan Informatika
#JadiJagoanDigital
Praktik Data
Preprocessing
Dataset Penjualan
Klik untuk download dataset
=SUBSTITUTE(A2;" ";"")
Menyeragamkan Format
Kode Pemesanan
Menyeragamkan Kode Pelanggan
=REPLACE(D2;1;1;"C")
=xlookup(D2;ref_latlong!$B$2:$B$19;ref_latlong!$C$2:$C$19)
Encoding Kolom Latitude Longitude Provinsi
Memisahkan teks menjadi Kolom
Pengisian missing value menggunakan ifs
=ifs(N97=30;6;N97=20;4;N97=15;3;N97=10;2;N97=0;1)
Penugasan #2
Selaras dengan kasus yang diangkat dalam dokumen Functional Requirement, tentukan data yang akan digunakan untuk membuat dashboard. Data dapat bersumber dari:
1. Real Case
Berdasarkan kasus nyata yang dialami di instansi tempat bekerja.
Mohon pastikan Anda mempertimbangkan:
a. izin atau akses legal terhadap data yang relevan dengan kasus yang hendak
diangkat
b. tidak ada data pribadi yang ditampilkan 1. Imaginary Case
Berdasarkan kasus imajiner. Anda dapat
memanfaatkan public dataset yang berasal dari Kaggle, BPS, Satu Data Jakarta, Open Data Jabar, BPS, dll.
Kriteria dataset yang digunakan:
1. Merupakan tabel 2 dimensi/flat
2. Merupakan raw data, bukan hasil agregasi
3. Terdiri dari 1 tabel utuh tanpa perlu melakukan blend/join data
Lakukan preprocessing data melalui Google
Spreadsheet agar siap digunakan sebagai basis data pada dashboard di Looker Studio.
Referensi:
1. Public Dataset untuk mencari basis data
2. Dokumentasi Google Spreadsheet untuk panduan
penggunaan spreadsheet
#JadiJagoanDigital Digital Talent Scholarship digitalent.kominfo DTS_kominfo