• Tidak ada hasil yang ditemukan

Pelatihan Data Preprocessing

N/A
N/A
Reza Pahlepi

Academic year: 2024

Membagikan "Pelatihan Data Preprocessing"

Copied!
35
0
0

Teks penuh

(1)

Pusdiklat - Kementerian Komunikasi dan Informatika

#JadiJagoanDigital

VISUALISASI DATA

Topik 3: Data Preprocessing

(2)

Mata pelatihan ini memberikan peserta kemampuan untuk menerapkan data preprocessing

Deskripsi Singkat

(3)

Tujuan Pembelajaran

Setelah mengikuti pembelajaran ini, peserta diharapkan mampu menerapkan data preprocessing

Hasil Belajar Indikator Hasil Belajar

Setelah pembelajaran, peserta dapat

1. Menjelaskan Urgensi Data Preprocessing

2. Menjelaskan Data Source Looker Studio

3. Menerapkan Data Preprocessing

Task

(4)

Outline Materi

1. Urgensi Data Preprocessing

• Data Quality Attributes

• Urgensi Data Preprocessing

• Dirty Data

• Data Preprocessing Task

2. Pengenalan Data Source Looker Studio

• Jenis Sumber Data Pada Looker Studio

• Kriteria Data Untuk Looker Data Studio

3. Praktik Data Preprocessing

• Menyeragamkan format kode pemesanan

• Menyeragamkan kode pelanggan

• Encoding latitude longitude provinsi

• Memisahkan teks menjadi kolom

(5)

You’re Here

Define Prototype Build Deploy

(6)

“Data scientists spend 60% of their time on cleaning and organizing data.”

-Forbes-

sumber

(7)

Apa pendapat Anda terkait data ini?

(8)

Accuracy

Completeness

Consistency

Timeliness Validity

Uniqueness

Data Quality Attributes

(9)

Data Quality Attributes (1)

Atribut Penjelasan Contoh Penerapan yang Baik Contoh Penerapan yang Buruk

Accuracy (Akurasi)

Mengukur sejauh mana data mencerminkan kebenaran dari entitas atau kejadian yang

direpresentasikan. Data yang akurat adalah data yang sesuai dengan keadaan yang sebenarnya.

Pemerintah menggunakan sistem perekaman data yang otomatis dan validasi ganda untuk memastikan bahwa data penduduk yang disimpan

dalam basis data adalah akurat dan sesuai dengan identitas resmi

Ketika data penduduk tidak diperbarui secara berkala, menyebabkan keberadaan penduduk yang meninggal masih terdaftar dalam basis data, menghasilkan data yang tidak akurat

Completeness (Kelengkapan)

Mengacu pada sejauh mana data lengkap dan tidak ada kekosongan dalam informasi yang

direpresentasikan.

Sistem pemerintah memiliki mekanisme validasi yang memastikan bahwa setiap entitas yang diperlukan memiliki entri yang sesuai dalam basis data.

Data mengenai penduduk yang tinggal di daerah terpencil mungkin tidak lengkap karena sulitnya akses dan pembaruan data

datacamp

(10)

Data Quality Attributes (2)

Atribut Penjelasan Contoh Penerapan yang Baik Contoh Penerapan yang Buruk

Consistency (Konsistensi)

Mengacu pada keseragaman data dalam beberapa sumber atau bagian dari sistem informasi

Basis data pemerintah memastikan bahwa data

kependudukan adalah sama di semua aplikasi yang

memanfaatkan data kependudukan.

Ketika data kependudukan warga dalam database di suatu instansi tidak konsisten dengan instansi lain.

Timeliness (Ketepatan Waktu)

Mengukur seberapa cepat data diperbarui dan tersedia untuk digunakan setelah peristiwa yang sesuai terjadi.

Informasi data kependudukan dalam database pemerintah diperbarui secara real-time atau dengan jadwal yang teratur.

Data mengenai kependudukan tidak diperbarui dalam

beberapa tahun, sehingga tidak mencerminkan situasi status kependudukan yang sebenarnya.

(11)

Data Quality Attributes (3)

Atribut Penjelasan Contoh Penerapan yang

Baik

Contoh Penerapan yang Buruk

Validity

(Keabsahan)

Mengacu pada sejauh mana data sesuai dengan aturan dan batasan yang ditetapkan

Pemerintah menggunakan validasi otomatis untuk memastikan bahwa nomor identitas warga yang

dimasukkan dalam database adalah format yang benar.

Ketika data yang dimasukkan tidak melewati proses

validasi, seperti format nomor identitas yang tidak valid, menyebabkan kesalahan dalam pengolahan data.

Uniqueness (Keunikan)

Menentukan apakah setiap entitas dalam data hanya muncul satu kali, sehingga tidak ada duplikasi.

Basis data penduduk

memastikan bahwa setiap nomor identitas unik dan hanya terdaftar sekali.

Adanya duplikasi dalam daftar penerima bantuan sosial karena kurangnya validasi keunikan.

(12)

Urgensi Data Preprocessing

Real world data are dirty

● Tidak Lengkap (banyak data kosong)

● Noisy / banyak outlier

● Tidak Berkualitas (tidak konsisten, tidak akurat, dll)

Some Information are hidden within data

•Informasi dapat diekstrak dari

data yang ada (umur dapat

dihitung dari tanggal lahir)

(13)

Mengapa Data bisa Kotor?

01

02 03

Missing Data (data yang hilang)

● Responden tidak merespon pada survei

● Kehilangan data dalam proses

● Kesalahan entri data

Data Noise

● Instrumen pengumpulan data yang salah

● Masalah transmisi data

● Inkonsistensi dalam konvensi penamaan

Masalah Lain

● Baris duplikat

● Data tidak lengkap

● Data tidak konsisten

(14)

Data Preprocessing Task

1

Data Cleaning

● Menangani nilai yang kosong (missing value)

● Menghapus data duplikat

● Identifikasi dan menangani

data pencilan (outlier) 2

Data Transformation

● Editing

● Encoding

(15)

Menangani Missing value: Penghapusan

Dihapus

● Jika sebagian besar baris atau kolom berisi nilai null (empty object)

● Jika variabel yang berisi null tidak penting dalam analisis

Contoh Missing Value

(16)

Contoh Distribusi

Menangani Missing value

Diisi

Berdasarkan Tipe Data

Mean (data interval &

ratio)

Median (data ordinal)

Mode (nominal, ordinal,

interval, ratio)

Berdasarkan Distribusi Data

Mean (normal

distribution)

Median (normal

distribution,

positively/negatively skewness)

Mode (normal

distribution) Constant Imputation

i.e “0”, “99”, “Tidak bersedia menjawab” dll

Contoh

Data

(17)

Menghapus Data Duplikat

● Terdapat dua baris atau lebih yang memiliki data yang identik

● Buang baris yang duplikat sehingga hanya terdapat baris dengan

data yang unik

(18)

Identifikasi Outlier

Outlier adalah nilai yang jauh berbeda dari nilai lainnya dalam kumpulan data. Nilai yang ada di outlier bisa jauh lebih tinggi maupun lebih rendah dibandingkan dengan nilai-nilai lain dalam dataset.

1. Visualisasi Data: menggunakan grafik seperti scatter plot, box plot, atau histogram untuk mengidentifikasi titik-titik data yang jauh dari pola umum.

2. Statistik Deskriptif: memeriksa statistik deskriptif seperti mean, median, dan standar deviasi. Titik data yang jauh dari mean atau median, atau memiliki standar deviasi yang tinggi, berpotensi menjadi outlier.

3. Metode Matematis: menggunakan metode

matematis seperti z-score atau IQR

(Interquartile Range) untuk menentukan

apakah sebuah data di luar batas yang

ditetapkan.

(19)

Menangani Outlier

Penanganan outlier tergantung pada konteks dan tujuan analisis Anda. Outlier bisa menjadi sinyal penting tentang keadaan alami data, atau bisa juga menjadi gangguan yang perlu ditangani dengan hati-hati, sehingga menjadi penting untuk mengetahui sumber outlier atau karakteristik data.

Penanganan outlier dijelaskan sebagai berikut:

1. Diabaikan

Jika karakteristik alami data memang sewajarnya terdapat outlier 2. Dihapus

Jika outlier disebabkan oleh kesalahan pengukuran atau data yang tidak valid 3. Ditransformasikan

- Mengubah skala data (normalisasi) untuk menangani outlier tanpa harus menghapusnya.

- Menggunakan metode robust, seperti median atau mean trimming (menghapus persentil atas dan bawah data) bisa digunakan jika outlier tidak dapat dihapus tetapi mempengaruhi analisis.

- Menggunakan teknik imputasi dengan mengganti nilai outlier dengan nilai lain. Nilai pengganti

ini bisa berupa mean, median, atau modus dari kumpulan data

(20)

Editing

Nama Peserta Asal Instansi

Andi Koinfo

Budi Kominfo

Cici Kemenkominfo

Didi Kementerian Komunikasi dan Informatika

Nama Peserta Asal Instansi

Andi Kementerian Komunikasi dan Informatika Budi Kementerian Komunikasi dan Informatika Cici Kementerian Komunikasi dan Informatika Didi Kementerian Komunikasi dan Informatika

1 1 1 1

Koinfo Kominfo Kemenkominfo Kementerian Komunikasi dan

Informatika

Asal Instansi

4

Kementerian Komunikasi dan Informatika

Asal Instansi

(21)

Encoding

● Encoding adalah proses mentransformasikan data string ke data numerik.

● Encoding diperlukan dalam kalkulasi data

Data Asli Referensi Encoding Hasil Encoding

ID Tingkat Kepuasan

VDM-021 Baik

VDM-022 Cukup

VDM-023 Kurang

VDM-025 Baik

VDM-026 Kurang

Kode Kategori

3 Baik

2 Cukup

1 Kurang

ID Tingkat Kepuasan

VDM-021 3

VDM-022 2

VDM-023 1

VDM-025 3

VDM-026 1

(22)

Pusdiklat - Kementerian Komunikasi dan Informatika

#JadiJagoanDigital

Pengenalan

Data Source Looker Studio

(23)

Jenis Sumber Data pada Looker Data Studio

(24)

Jenis Sumber Data pada Looker Data Studio (2)

(25)

Kriteria Data untuk Looker Studio

Tabel 2 dimensi/

Flat Table

Terdiri dari baris dan kolom tanpa merge cell

Bukan data agregasi

Berupa data mentah

1 2

(26)

VS

Mana yang memenuhi kriteria?

(27)

Pusdiklat - Kementerian Komunikasi dan Informatika

#JadiJagoanDigital

Praktik Data

Preprocessing

(28)

Dataset Penjualan

Klik untuk download dataset

(29)

=SUBSTITUTE(A2;" ";"")

Menyeragamkan Format

Kode Pemesanan

(30)

Menyeragamkan Kode Pelanggan

=REPLACE(D2;1;1;"C")

(31)

=xlookup(D2;ref_latlong!$B$2:$B$19;ref_latlong!$C$2:$C$19)

Encoding Kolom Latitude Longitude Provinsi

(32)

Memisahkan teks menjadi Kolom

(33)

Pengisian missing value menggunakan ifs

=ifs(N97=30;6;N97=20;4;N97=15;3;N97=10;2;N97=0;1)

(34)

Penugasan #2

Selaras dengan kasus yang diangkat dalam dokumen Functional Requirement, tentukan data yang akan digunakan untuk membuat dashboard. Data dapat bersumber dari:

1. Real Case

Berdasarkan kasus nyata yang dialami di instansi tempat bekerja.

Mohon pastikan Anda mempertimbangkan:

a. izin atau akses legal terhadap data yang relevan dengan kasus yang hendak

diangkat

b. tidak ada data pribadi yang ditampilkan 1. Imaginary Case

Berdasarkan kasus imajiner. Anda dapat

memanfaatkan public dataset yang berasal dari Kaggle, BPS, Satu Data Jakarta, Open Data Jabar, BPS, dll.

Kriteria dataset yang digunakan:

1. Merupakan tabel 2 dimensi/flat

2. Merupakan raw data, bukan hasil agregasi

3. Terdiri dari 1 tabel utuh tanpa perlu melakukan blend/join data

Lakukan preprocessing data melalui Google

Spreadsheet agar siap digunakan sebagai basis data pada dashboard di Looker Studio.

Referensi:

1. Public Dataset untuk mencari basis data

2. Dokumentasi Google Spreadsheet untuk panduan

penggunaan spreadsheet

(35)

#JadiJagoanDigital Digital Talent Scholarship digitalent.kominfo DTS_kominfo

TERIMA KASIH

Gambar

Tabel 2 dimensi/

Referensi

Dokumen terkait

Setelah mengetahui data terkait peserta pelatihan, dan ditemukan suatu permasalahan, maka dibutuhkan solusi untuk meningkatkan kemampuan peserta dalam memanfaatkan

Bab ini berisi landasan teori mengenai hal-hal yang digunakan dalam penelitian, yaitu data mining, preprocessing input, penjelasan metadata, binning yang terdiri

Pelatih yang bertugas untuk memberikan materi dalam kegiatan pelatihan kepada peserta dari sekolah adalah:.. Pelatihan untuk peserta dari sekolah yang berada di Provinsi Papua,

Pendidikan dan pelatihan kepemimpinan (diklatpim) merupakan suatu upaya untuk meningkatkan kemampuan manajerial dan profesional. Atas dasar pelatihan tersebut dapat

Tujuan penelitian ini untuk mengetahui: (1) reaksi peserta terhadap program pelatihan, materi pelatihan dan instruktur pelatihan, (2) kemampuan peserta selama proses pelatihan

Keywords: Training, Research, DEA Model Data Analysis Methods ABSTRAK Tujuan Pengabdian Pelatihan Metode Analisis Data Model DEA untuk memberikan keterampilan kepada Pertukaran

Hasil Uji Beda Variabel Pengetahuan Peserta Pelatihan Sebelum dan Sesudah Skor Pengetahuan Skor Rata-Rata Distribusi Data Uji yang Digunakan Nilai p α Simpulan

Pelatihan ini memberikan kemampuan untuk mengimplementasikan Kepemimpinan Transformasional melalui konsep dasar, coaching dan