BISMILLAH ADSP LANCAR
“WARNING : INI BISA JADI REFERENSI TAPI UNTUK PENGGUNAANNYA BISA SENYAMANNYA KALIAN DAN KARENA YANG BUAT JUGA MASIH BELAJAR KALAU ADA
YANG SALAH MOHON DIMAAFKAN DAN BISA DIPERBAIKI YA 🙏🙏”
“STEP BY STEP INI MENJOINERKAN DAHULU BARU DATA CLEANING KALIAN JUGA BISA DATA CLEANING DAHULU PER FILENYA BARU DIJOINERKAN”
STEP BY STEP :
1. Impor data terlebih dahulu dari soal
Jika data excel menggunakan excel reader
Jika data csv menggunakan csv reader
* Catatan :
Biasanya ada data transaksi dan data referensi yang diberikan
Data transaksi yang harus dibersihkan atau dibenarkan
Data referensi sudah pasti benar (jadi ga perlu ada yang dibersihkan)
Pada tentir kemarin data transaksi adalah anggaran dan blokir sedangkan referensi adalah tkementerian dan tksatker
Tips tau mana data referensi :
Referensi biasanya pasti ada kolom yang menunjukkan kode xxx itu penjelasannya apa Contoh : pada tentir kemarin kdkementerian 001 menunjukkan lembaga MPR
2. Setiap reader transaksi dilihat dahulu formatnya pada setiap kolom
a. Melihat format seluruh kolom pada setiap reader, karena bisa saja ada data string padahal seharusnya bukan string atau sebaliknya
contoh : harga, jumlah, kuantitas, dll (yang berhubungan dengan angka1
)
Jika data string dan mau diubah ke numbering :Cara 1 : bisa diubah langsung di readernya
pencet konfigurasi reader pilih kolom transformation pilih type pada kolom yang mau diubah pilih number2
Cara 2 : jika tidak bisa diubah di reader (biasanya pada angka ada symbol lain, sehingga tidak bisa diubah menjadi numbering
nodes string manipulation ketik rumus untuk menghilangkan symbol3 ceklis replace kolom dan pilih kolom mana yang mau diganti) pencet oke nodes string to number pilih kolom yang bermasalah pilih type number oke
*catatan :
1. tidak semua yang isi angka akan diubah menjadi numbering, ketika dia angka yang menunjukkan kategori maka tidak perlu diubah
2. numbering ada 3 jenis integer (bilangan bulat biasanya berbentuk angka saja), double (menjadikan numbering ada desimalnya biasanya cocok untuk
menunjukkan harga), long (untuk angka yang sangat panjang)
3. rumus pada symbol diatas berdasarkan tentir kemarin untuk menghilangkan tanda “.” Karena tanda “.” Dianggap sebagai symbol sehingga kolom jumlah tidak bisa diubah ke numbering.
Removechars (str) untuk menghilangkan non alfabet (seperti tanda symbol).
Contoh : 1.000.000 ada tanda “.”
Removechars (str,chars) untuk menghilangkan alfabet yang tertera pada angka. Remove ini bisa dipilih pada “function” Digambar atas
Contoh : Rp 1.000.000 ada alfabet “Rp” dan tanda “.”
contoh : data string pada tanggal dan waktu Jika data string dan mau diubah ke local date&time
Cara 1 : sama seperti cara diatas langsung diubah ke transformation dan pilih local date atau local date n time jika ada tambahan keterangan waktu (jam)
Cara 2 : jika tidak bisa diubah langsung
pilih nodes string to date&time pilih kolom yang ada tanggalnya dan mau diubah pilih guess data type and format (supaya otomatis menyesuaikan) oke
*catatan :
Jika pada kasus tanggal ada permasalahan tanggal yang invalid, maka tanggal harus disesuaikan dengan tanggal tren yang ada.
Bisa menggunakan rule engine atau string replacer untuk mengubah tanggal yang salah menjadi tanggal yang sesuai
3. Pastikan data pada transaksi sesuai dengan yang direferensi, misal kode atau kategori yang menunjukkan suatu identitas
Menggunakan nodes joiner untuk menggabungkan data transaksi dan data referensi untuk melihat apakah kode unik pada data transaksi sudah seluruhnya mewakili data pada referensi
Joiner masukkan kolom untuk input table kiri dan kanan (pastikan isi datanya sama atau sejenis) pilih matching row atau left unmatches row atau right unmatches row* masukkan kolom yang mau ditampilkan untuk dibandingkan oke
*catatan :
Matching row = hanya ingin menunjukkan data yang sama
Left unmatches row = ingin menunjukkan apakah data kiri ada yang tidak sesuai dengan data kanan
Right unmatches row = ingin menunjukkan apakah data kanan ada yang tidak sesuai dengan data kiri
Ketidaksesuaian antara kedua data akan ditunjukkan dengan tanda “missing”
(tanda tanya merah) Contoh :
Panah atas (left) menunjukkan data untuk anggaran yang diblokir (transaksi), panah bawah (right) menunjukkan data pada referensi
Pada konfigurasi mengisi left input = kdorganisasi dan right input = kdorganisasi ceklis matching row dan left unmatches includes (mengisi sesuai pada gambar)
bagaimana cara membacanya?
Artinya ketika kita menceklis matching row kita ingin menampilkan data yang match atau sama di kedua data, yang tidak sama akan otomatis hilang
Ketika menceklis left unmatches row kita ingin menunjukkan data kiri secara keseluruhan (jdi data kiri semuanya ditampilin). Nah ketika ada data di kanan yang ga sesuai dengan data kiri maka akan menunjukkan tanda missing di data kanan. Jadi data yang kanan mengikuti data yang kiri. Intinya knime akan berpatokan pada data kiri
Sedangkan menceklis right unmatches row kita ingin menunjukkan data di kanan secara keseluruhan (jdi data kanan semuanya ditampilin). Nah ketika ada data di kiri yang ga sesuai dengan data kanan maka akan menunjukkan tanda missing di data kiri. Jadi data kiri akan mengikuti data di kanan. Intinya knime akan berpatokan pada data kanan
Pada tentir kemarin kita ingin menunjukkan data yang tidak sama pada data kiri (data transaksi), karena pada data kanan (referensi) dianggap sudah pasti benar. Jdi kita pengen nyocokin yang data transaksi yang kiri ke kanan. Tanda missing pada data dikanan menunjukkan bahwa ada kode organisasi yang secara referensi tidak tercantum artinya bisa saja ada kesalahan pada penulisan di data transaksi dan harus disesuaikan dengan data pada referensi
kalian bisa menggunakan nodes rule engine untuk membenarkan kode yang salah dan disesuaikan dengan data referensi. Rumus seperti dibawah
Cara analoginya :
Baris 5 = untuk kode organisasi 412110 yang menunjukkan kode satker 018.20 akan berubah menjadi 018.10
Baris 6 = kode organisasi yang sudah benar ingin dimunculkan juga
*kalau sudah benar semua dari data transaksi, selanjutnya data transaksi 1 dan 2 di joiner untuk melihat permasalahan selanjutnya
4. Setelah data referensi dan transaksi sudah diperbaiki dan benar, kita mendeteksi adanya kesalahan pada data seperti duplicate, missing dan permasalahan lainnya
Melihat apakah ada data yang duplicate, missing, dan permasalahan lainnya tergantung data yang ada (kemungkinan ujian datanya sedikit jdi kalau mau tau permasalahan yang ada bisa scroll datanya dan dilihat apakah data yang janggal)
Permasalahan duplicate
Untuk menunjukkan data duplicate* : nodes row aggregator pilih ‘category coloumn’ dan pilih kolom yg mau dicek datanya double atau engga occurrence count oke nodes row filter pilih occurrence count pilih greather than atau does not equal isi value dengan 1 (nanti data yang tertera adalah data yang lebih dari 1 karena mau mencari data yang duplicate alias lebih dari 1) oke
Untuk menghapus data duplicate : nodes duplicate row filter includes data mana yang mau didetect duplicate dan ini nanti akan dihilangkan oke
*catatan :
Row aggregator row filter = Cuma menunjukkan data yang duplicate, bukan untuk diolah ke tahap selanjutnya
Duplicates row filter = menghapus data yang duplikat, dari nodes ini baru disambungkan ke nodes berikutnya
Permasalahan missing value
Ditandai dengan adanya tanda tanya merah pada isi data
Solusinya bisa dihapus rownya atau diisi data dengan menggunakan nodes missing value
Menghapus row = Tidak bisa sembarang menghapus row, karena nanti akan mempengaruhi agregasi data secara keseluruhan. Kemungkinan kapan harus dihapus adalah ketika 1 row tersebut hampir keseluruhan data missing atau menggunakan logika (misal pada data penjualan ada kuantitas, harga penjualan, dan total penjualan, diketahui bahwa kuantitas missing secara logika jika kuantitasnya tidak ada maka seharusnya tidak akan ada penjualan, sehingga bisa di remove rownya atau bisa menggunakan fix value di isi 0 atau -)
Mengisi data = bisa di isi dengan fix value, mean dan median
Kapan menggunakan Fix value? di isi ketika sudah pasti datanya tertera (misal dari word di tugas adsp 2 yang tidak tap out dianggap 10.000, yg mana sudah pasti jadi bisa di isi 10.000. lalu pada data tentir ada anggaran blokir yang missing dianggap “0” karena bisa diasumsikan memang tidak ada anggaran yang terblokir) jadi fix value tergantung asumsi pribadi masing masing
Kapan menggunakan mean? Di isi ketika melihat data yang numbering secara keseluruhan. Kalau secara keseluruhan data mempunyai range yang tidak jauh berbeda bisa menggunakan mean.
Contoh :
Produk Harga
A 8.000
B 9.000
C 7.000
D ?
E 8.000
Kalau dilihat diatas range harga untuk produk itu tipis banget sekitar di range 7 rb – 9rb, nah harga bisa menggunakan mean. Karena pasti harga yang
dicantumkan itu tidak jauh berbeda di range tersebut, tinggal dicari mau rata ratanya kyk gimana
Kapan menggunakan median? Di isi ketika melihat data numbering secara keseluruhan. Kalau secara keseluruhan data mempunyai range yang sangat jauh (jomplang), lebih baik menggunakan median untuk mencari data tengahnya.
*catatan :
Penggunaan fix value, mean, median tergantung kaliannya dan jangan lupa dicantumkan asumsinya kenapa menggunakan salah satu dari 3 cara tersebut supaya dosennya tau
Pada tentir kemarin jumlah anggaran yang ada sangat berbeda jauh jadi bisa saja menggunakan median, namun median dianggap tidak masuk akal karena tidak mungkin anggaran yang missing pada suatu Kementerian itu dianggarkan berdasarkan nilai tengah, maka dari itu di isi 0 dengan asumsi memang tidak ada anggaran yang diberi
Permasalahan lainnya
Hanya contoh berdasarkan Latihan-latihan sebelumnya Contoh :
Terdapat saldo yang minus
Waktu yang janggal yaitu tap in dan tap out terbalik
Ada kesalahan penulisan angka/kode
Ada kesalahan petugas yang melakukan penjualan (intinya ini tergantung soal ya ges ya, ak tak tw nanti cem mana 🙏)
Solusinya : bisa menggunakan nodes rule engine untuk mengubah isi data pada suatu kolom yang salah dan ingin dibenarkan
(untuk rumusnya tak bisa dijelaskan disini itu semua tergantung kalian memainkan logikanya untuk membentuk rumus di rule engine ya ges ya 🙏) contoh memakai logika rule engine ada diawal ya ges yg di poin 3
contoh lainnya :
Cara analoginya :
Baris 5 : kolom petugas yang isinya purchase ingin diganti dengan tulisan sales Baris 6 : kolom petugas yang sudah benar ingin ditampilkan juga
*catatan : jenis permasalahan diatas bisa saja hanya muncul salah satunya atau bisa muncul semuanya, jadi kalau misal pas ujian data yang duplicate memang tidak ada ya udah ges brarti tinggal lanjott, dan berlaku untuk semua
permasalahannya.
5. Setelah data bersih dari permasalahan duplicate, missing atau yang
lainnya, lihat soalnya yang ditanyain apa, dan kalau pertanyaannya
mengenai hitungan kalian bisa merumuskan sendiri untuk perhitungannya menggunakan nodes math formula atau nodes expression
6. Jika disoal diminta insight atau visualisasi kalian bisa memanfaatkan chart yang ada
“catatan : penggunaan nodes lainnya kalian bisa cari ya untuk kegunaannya untuk apa, misal cell splitter, group by, numbering to string, dll”
“JANGAN LUPA BERDOA SEBELUM UTS DAN SEMOGA UTS KALIAN DILANCARKAN SEMUAA YAAA 😊😊”