Panduan Pembersihan dan Penggabungan Data

(1)

BISMILLAH ADSP LANCAR

“WARNING : INI BISA JADI REFERENSI TAPI UNTUK PENGGUNAANNYA BISA SENYAMANNYA KALIAN DAN KARENA YANG BUAT JUGA MASIH BELAJAR KALAU ADA

YANG SALAH MOHON DIMAAFKAN DAN BISA DIPERBAIKI YA 🙏🙏”

“STEP BY STEP INI MENJOINERKAN DAHULU BARU DATA CLEANING KALIAN JUGA BISA DATA CLEANING DAHULU PER FILENYA BARU DIJOINERKAN”

STEP BY STEP :

1. Impor data terlebih dahulu dari soal

 Jika data excel  menggunakan excel reader

 Jika data csv  menggunakan csv reader

* Catatan :

Biasanya ada data transaksi dan data referensi yang diberikan

 Data transaksi yang harus dibersihkan atau dibenarkan

 Data referensi sudah pasti benar (jadi ga perlu ada yang dibersihkan)

Pada tentir kemarin data transaksi adalah anggaran dan blokir sedangkan referensi adalah tkementerian dan tksatker

Tips tau mana data referensi :

Referensi biasanya pasti ada kolom yang menunjukkan kode xxx itu penjelasannya apa Contoh : pada tentir kemarin kdkementerian 001 menunjukkan lembaga MPR

2. Setiap reader transaksi dilihat dahulu formatnya pada setiap kolom

a. Melihat format seluruh kolom pada setiap reader, karena bisa saja ada data string padahal seharusnya bukan string atau sebaliknya

 contoh : harga, jumlah, kuantitas, dll (yang berhubungan dengan angka¹

)

Jika data string dan mau diubah ke numbering :

Cara 1 : bisa diubah langsung di readernya

 pencet konfigurasi reader  pilih kolom transformation  pilih type pada kolom yang mau diubah  pilih number²

Cara 2 : jika tidak bisa diubah di reader (biasanya pada angka ada symbol lain, sehingga tidak bisa diubah menjadi numbering

 nodes string manipulation  ketik rumus untuk menghilangkan symbol³ ceklis replace kolom dan pilih kolom mana yang mau diganti)  pencet oke  nodes string to number  pilih kolom yang bermasalah  pilih type number  oke

(2)

*catatan :

1. tidak semua yang isi angka akan diubah menjadi numbering, ketika dia angka yang menunjukkan kategori maka tidak perlu diubah

2. numbering ada 3 jenis  integer (bilangan bulat biasanya berbentuk angka saja), double (menjadikan numbering ada desimalnya biasanya cocok untuk

menunjukkan harga), long (untuk angka yang sangat panjang)

3. rumus pada symbol diatas berdasarkan tentir kemarin untuk menghilangkan tanda “.” Karena tanda “.” Dianggap sebagai symbol sehingga kolom jumlah tidak bisa diubah ke numbering.

 Removechars (str) untuk menghilangkan non alfabet (seperti tanda symbol).

Contoh : 1.000.000  ada tanda “.”

 Removechars (str,chars) untuk menghilangkan alfabet yang tertera pada angka. Remove ini bisa dipilih pada “function” Digambar atas

Contoh : Rp 1.000.000  ada alfabet “Rp” dan tanda “.”

 contoh : data string pada tanggal dan waktu Jika data string dan mau diubah ke local date&time

Cara 1 : sama seperti cara diatas langsung diubah ke transformation dan pilih local date atau local date n time jika ada tambahan keterangan waktu (jam)

Cara 2 : jika tidak bisa diubah langsung

 pilih nodes string to date&time  pilih kolom yang ada tanggalnya dan mau diubah  pilih guess data type and format (supaya otomatis menyesuaikan)  oke

*catatan :

Jika pada kasus tanggal ada permasalahan tanggal yang invalid, maka tanggal harus disesuaikan dengan tanggal tren yang ada.

Bisa menggunakan rule engine atau string replacer untuk mengubah tanggal yang salah menjadi tanggal yang sesuai

3. Pastikan data pada transaksi sesuai dengan yang direferensi, misal kode atau kategori yang menunjukkan suatu identitas

 Menggunakan nodes joiner untuk menggabungkan data transaksi dan data referensi untuk melihat apakah kode unik pada data transaksi sudah seluruhnya mewakili data pada referensi

 Joiner  masukkan kolom untuk input table kiri dan kanan (pastikan isi datanya sama atau sejenis)  pilih matching row atau left unmatches row atau right unmatches row*  masukkan kolom yang mau ditampilkan untuk dibandingkan  oke

*catatan :

 Matching row = hanya ingin menunjukkan data yang sama

(3)

 Left unmatches row = ingin menunjukkan apakah data kiri ada yang tidak sesuai dengan data kanan

 Right unmatches row = ingin menunjukkan apakah data kanan ada yang tidak sesuai dengan data kiri

 Ketidaksesuaian antara kedua data akan ditunjukkan dengan tanda “missing”

(tanda tanya merah) Contoh :

 Panah atas (left) menunjukkan data untuk anggaran yang diblokir (transaksi), panah bawah (right) menunjukkan data pada referensi

 Pada konfigurasi mengisi left input = kdorganisasi dan right input = kdorganisasi  ceklis matching row dan left unmatches  includes (mengisi sesuai pada gambar)

 bagaimana cara membacanya?

Artinya ketika kita menceklis matching row kita ingin menampilkan data yang match atau sama di kedua data, yang tidak sama akan otomatis hilang

Ketika menceklis left unmatches row kita ingin menunjukkan data kiri secara keseluruhan (jdi data kiri semuanya ditampilin). Nah ketika ada data di kanan yang ga sesuai dengan data kiri maka akan menunjukkan tanda missing di data kanan. Jadi data yang kanan mengikuti data yang kiri. Intinya knime akan berpatokan pada data kiri

Sedangkan menceklis right unmatches row kita ingin menunjukkan data di kanan secara keseluruhan (jdi data kanan semuanya ditampilin). Nah ketika ada data di kiri yang ga sesuai dengan data kanan maka akan menunjukkan tanda missing di data kiri. Jadi data kiri akan mengikuti data di kanan. Intinya knime akan berpatokan pada data kanan

Pada tentir kemarin kita ingin menunjukkan data yang tidak sama pada data kiri (data transaksi), karena pada data kanan (referensi) dianggap sudah pasti benar. Jdi kita pengen nyocokin yang data transaksi yang kiri ke kanan. Tanda missing pada data dikanan menunjukkan bahwa ada kode organisasi yang secara referensi tidak tercantum artinya bisa saja ada kesalahan pada penulisan di data transaksi dan harus disesuaikan dengan data pada referensi

(4)

 kalian bisa menggunakan nodes rule engine untuk membenarkan kode yang salah dan disesuaikan dengan data referensi. Rumus seperti dibawah

Cara analoginya :

Baris 5 = untuk kode organisasi 412110 yang menunjukkan kode satker 018.20 akan berubah menjadi 018.10

Baris 6 = kode organisasi yang sudah benar ingin dimunculkan juga

*kalau sudah benar semua dari data transaksi, selanjutnya data transaksi 1 dan 2 di joiner untuk melihat permasalahan selanjutnya

4. Setelah data referensi dan transaksi sudah diperbaiki dan benar, kita mendeteksi adanya kesalahan pada data seperti duplicate, missing dan permasalahan lainnya

Melihat apakah ada data yang duplicate, missing, dan permasalahan lainnya tergantung data yang ada (kemungkinan ujian datanya sedikit jdi kalau mau tau permasalahan yang ada bisa scroll datanya dan dilihat apakah data yang janggal)



Permasalahan duplicate

 Untuk menunjukkan data duplicate* : nodes row aggregator  pilih ‘category coloumn’ dan pilih kolom yg mau dicek datanya double atau engga  occurrence count  oke  nodes row filter  pilih occurrence count  pilih greather than atau does not equal  isi value dengan 1 (nanti data yang tertera adalah data yang lebih dari 1 karena mau mencari data yang duplicate alias lebih dari 1)  oke

 Untuk menghapus data duplicate : nodes duplicate row filter  includes data mana yang mau didetect duplicate dan ini nanti akan dihilangkan  oke

*catatan :

 Row aggregator  row filter = Cuma menunjukkan data yang duplicate, bukan untuk diolah ke tahap selanjutnya

 Duplicates row filter = menghapus data yang duplikat, dari nodes ini baru disambungkan ke nodes berikutnya

(5)

 Permasalahan missing value

 Ditandai dengan adanya tanda tanya merah pada isi data

 Solusinya bisa dihapus rownya atau diisi data dengan menggunakan nodes missing value

 Menghapus row = Tidak bisa sembarang menghapus row, karena nanti akan mempengaruhi agregasi data secara keseluruhan. Kemungkinan kapan harus dihapus adalah ketika 1 row tersebut hampir keseluruhan data missing atau menggunakan logika (misal pada data penjualan ada kuantitas, harga penjualan, dan total penjualan, diketahui bahwa kuantitas missing secara logika jika kuantitasnya tidak ada maka seharusnya tidak akan ada penjualan, sehingga bisa di remove rownya atau bisa menggunakan fix value di isi 0 atau -)

 Mengisi data = bisa di isi dengan fix value, mean dan median

 Kapan menggunakan Fix value? di isi ketika sudah pasti datanya tertera (misal dari word di tugas adsp 2 yang tidak tap out dianggap 10.000, yg mana sudah pasti jadi bisa di isi 10.000. lalu pada data tentir ada anggaran blokir yang missing dianggap “0” karena bisa diasumsikan memang tidak ada anggaran yang terblokir) jadi fix value tergantung asumsi pribadi masing masing

 Kapan menggunakan mean? Di isi ketika melihat data yang numbering secara keseluruhan. Kalau secara keseluruhan data mempunyai range yang tidak jauh berbeda bisa menggunakan mean.

Contoh :

Produk Harga

A 8.000

B 9.000

C 7.000

D ?

E 8.000

Kalau dilihat diatas range harga untuk produk itu tipis banget sekitar di range 7 rb – 9rb, nah harga bisa menggunakan mean. Karena pasti harga yang

dicantumkan itu tidak jauh berbeda di range tersebut, tinggal dicari mau rata ratanya kyk gimana

 Kapan menggunakan median? Di isi ketika melihat data numbering secara keseluruhan. Kalau secara keseluruhan data mempunyai range yang sangat jauh (jomplang), lebih baik menggunakan median untuk mencari data tengahnya.

*catatan :

 Penggunaan fix value, mean, median tergantung kaliannya dan jangan lupa dicantumkan asumsinya kenapa menggunakan salah satu dari 3 cara tersebut supaya dosennya tau

(6)

 Pada tentir kemarin jumlah anggaran yang ada sangat berbeda jauh jadi bisa saja menggunakan median, namun median dianggap tidak masuk akal karena tidak mungkin anggaran yang missing pada suatu Kementerian itu dianggarkan berdasarkan nilai tengah, maka dari itu di isi 0 dengan asumsi memang tidak ada anggaran yang diberi

 Permasalahan lainnya

Hanya contoh berdasarkan Latihan-latihan sebelumnya Contoh :

 Terdapat saldo yang minus

 Waktu yang janggal yaitu tap in dan tap out terbalik

 Ada kesalahan penulisan angka/kode

 Ada kesalahan petugas yang melakukan penjualan (intinya ini tergantung soal ya ges ya, ak tak tw nanti cem mana 🙏)

Solusinya : bisa menggunakan nodes rule engine untuk mengubah isi data pada suatu kolom yang salah dan ingin dibenarkan

(untuk rumusnya tak bisa dijelaskan disini itu semua tergantung kalian memainkan logikanya untuk membentuk rumus di rule engine ya ges ya 🙏) contoh memakai logika rule engine ada diawal ya ges yg di poin 3

contoh lainnya :

Cara analoginya :

Baris 5 : kolom petugas yang isinya purchase ingin diganti dengan tulisan sales Baris 6 : kolom petugas yang sudah benar ingin ditampilkan juga

*catatan : jenis permasalahan diatas bisa saja hanya muncul salah satunya atau bisa muncul semuanya, jadi kalau misal pas ujian data yang duplicate memang tidak ada ya udah ges brarti tinggal lanjott, dan berlaku untuk semua

permasalahannya.

5. Setelah data bersih dari permasalahan duplicate, missing atau yang

lainnya, lihat soalnya yang ditanyain apa, dan kalau pertanyaannya

(7)

mengenai hitungan kalian bisa merumuskan sendiri untuk perhitungannya menggunakan nodes math formula atau nodes expression

6. Jika disoal diminta insight atau visualisasi kalian bisa memanfaatkan chart yang ada

“catatan : penggunaan nodes lainnya kalian bisa cari ya untuk kegunaannya untuk apa, misal cell splitter, group by, numbering to string, dll”

“JANGAN LUPA BERDOA SEBELUM UTS DAN SEMOGA UTS KALIAN DILANCARKAN SEMUAA YAAA 😊😊”