QUESTION 1
Seorang manajer di sebuah perusahaan ingin menyajikan laporan kinerja bulanan kepada dewan direksi. Laporan tersebut mengandung informasi penting tentang penjualan,
pengeluaran, dan keuntungan perusahaan. Namun, manajer merasa kesulitan untuk
mendapatkan perhatian dewan direksi saat presentasi laporan yang hanya berupa tabel dan teks panjang. Bagaimana cara manajer tersebut dapat meningkatkan efektivitas
presentasinya sehingga informasi penting dapat dengan mudah dipahami dan diingat oleh dewan direksi? Jelaskan keuntungan menggunakan visualisasi data dalam konteks ini.
ANS:
Manajer dapat menyajikan data tabel yang panjang dalam bentuk grafik yang lebih menarik dan mudah dibaca. Dengan cara ini, informasi yang kompleks bisa disajikan dengan lebih jelas dan ringkas. Selain itu, manajer juga dapat menyoroti poin-poin penting dari data yang sebelumnya disampaikan dalam teks panjang.
Visualisasi data memungkinkan dewan direksi untuk mencerna dan memahami informasi dengan lebih cepat. Dengan melihat grafik, mereka dapat dengan mudah mengidentifikasi pola, trend, dan anomali yang mungkin tidak tampak dalam tabel angka yang panjang.
Selain itu, visualisasi membantu menyoroti poin-poin kunci secara konsisten, membuat informasi utama lebih menonjol dan mudah diingat.
QUESTION 2
Seorang analis data di sebuah perusahaan e-commerce menggunakan Tableau untuk menganalisis data penjualan selama satu tahun terakhir. Perusahaan ingin mengetahui trend penjualan produk tertentu di berbagai wilayah geografis dan bagaimana kinerja
masing-masing wilayah. Jelaskan bagaimana Tableau dapat membantu analis data tersebut dalam membuat visualisasi interaktif yang dapat dengan cepat menampilkan tren penjualan berdasarkan wilayah. Bagaimana Tableau menangani data dalam jumlah besar untuk menghasilkan visualisasi yang efisien?
ANS:
Analis dapat menggunakan grafik garis untuk menunjukkan tren penjualan dari waktu ke waktu dan peta geografis untuk menggambarkan kinerja per wilayah secara visual. Tableau mendukung interaktivitas melalui filter, memungkinkan pengguna untuk meneliti data secara mendalam dan menyesuaikan tampilan sesuai kebutuhan.
Untuk menangani data besar, Tableau menggunakan teknologi in-memory processing dan teknik agregasi yang efisien, serta memungkinkan penggunaan extract untuk mempercepat query dan meminimalkan beban pada sumber data asli.
QUESTION 3
Seorang data scientist di sebuah perusahaan telekomunikasi ditugaskan untuk menganalisis data pelanggan dari berbagai sumber, termasuk data internal perusahaan dan data
eksternal dari sumber lain. Data tersebut terdiri dari berbagai tabel yang berasal dari database berbeda. Untuk mendapatkan wawasan yang menyeluruh, dia perlu
menggabungkan data dari berbagai sumber tersebut di Tableau. Jelaskan bagaimana data scientist tersebut dapat menggabungkan data dari berbagai sumber di Tableau. Sebutkan
dan jelaskan beberapa cara yang dapat digunakan untuk menggabungkan data pada halaman Data Source Tableau. Bagaimana langkah selanjutnya dalam menganalisis data setelah data tersebut digabungkan?
ANS:
Dengan menggunakan Tableau, data scientist dapat menggabungkan data dari berbagai sumber menggunakan beberapa metode di halaman Data Source. Beberapa metode yang dapat dilakukan sebagai berikut:
1. Joins memungkinkan penggabungan tabel berdasarkan kolom yang sama dengan pilihan seperti Inner, Left, Right, atau Outer Join.
2. Blending digunakan untuk menggabungkan data dari sumber yang berbeda secara logis, menggunakan kolom yang memiliki nama yang sama sebagai penghubung.
3. Relationships menghubungkan tabel tanpa menggabungkan data fisik, memungkinkan fleksibilitas dalam analisis.
4. Union menggabungkan baris dari tabel dengan struktur yang sama, baik dari file atau tabel yang berbeda.
Setelah data digabungkan, langkah selanjutnya adalah membuat visualisasi untuk analisis, melakukan analisis mendalam untuk menemukan pola dan tren, menyusun dashboard untuk pandangan menyeluruh, serta mempublikasikan hasilnya untuk berbagi dengan tim dan pemangku kepentingan.
QUESTION 4
Anda bekerja di sebuah perusahaan asuransi yang menggunakan aplikasi untuk mencatat data pengiriman barang yang diasuransikan oleh pelanggan. Setelah melakukan tinjauan awal terhadap data, Anda menemukan bahwa beberapa data tidak konsisten. Misalnya, ada input data jenis kelamin yang salah atau tanggal lahir yang tidak masuk akal. Selain itu, Anda juga menemukan adanya input data yang bersifat opsional namun tidak diisi oleh pengguna, dan terdapat beberapa kesalahan teknis dalam implementasi data tracker yang menyebabkan error pada data yang terkumpul. Identifikasikan beberapa penyebab
“ketidakbersihan” pada data yang Anda temukan.
ANS:
Ketidakbersihan data yang ditemukan dalam aplikasi dapat disebabkan oleh beberapa faktor utama. Kesalahan input manual sering kali mengakibatkan data yang tidak konsisten, seperti jenis kelamin yang salah atau tanggal lahir yang tidak logis. Ketiadaan validasi yang
memadai dalam aplikasi memungkinkan data yang tidak valid lolos. Input opsional yang tidak diisi mungkin disebabkan oleh kurangnya kejelasan atau persyaratan dalam interface pengguna. Selain itu, kesalahan teknis dalam implementasi data tracker atau bug dalam aplikasi dapat menyebabkan data yang terkumpul tidak akurat atau error. Kurangnya standar atau pedoman pengumpulan data juga berkontribusi pada inkonsistensi data.
QUESTION 5
Anda bertanggung jawab untuk menganalisis dataset besar yang memiliki banyak nilai hilang (missing values). Ternyata, ada beberapa kolom yang memiliki nilai hilang lebih dari 10% dari total baris data, dan sebagian besar kolom yang lain memiliki nilai hilang di bawah 5%. Apa yang sebaiknya Anda lakukan terhadap kolom yang memiliki nilai hilang lebih dari 10% dari total baris? Dan Bagaimana Anda menangani nilai hilang pada kolom yang
memiliki nilai hilang kurang dari 5%? Jelaskan pendekatan yang mungkin digunakan dan alasan di baliknya.
ANS:
Untuk kolom dengan nilai hilang lebih dari 10%, saya akan mengevaluasi relevansi kolom tersebut terhadap analisis yang akan saya lakukan. Jika tidak krusial, saya akan
mempertimbangkan untuk menghapus kolomnya. Jika penting, saya akan
mendiskusikannya dengan team, apa bisa mengambil ulang data atau tidak. Jika tidak bisa, saya akan menggunakan metode imputasi seperti median, mean, atau model prediktif, sambil memeriksa dampaknya terhadap analisis. Jika memberikan dampak yang besar, saya akan memilih untuk menghapus baris yang datanya hilang.
Sama halnya dengan data yang hilang 10%, untuk kolom dengan nilai hilang di bawah 5%, saya akan saya akan melihat relevansi data dan mendiskusikan terlebih dahulu dengan team. Jika diskusi tidak menghasilkan solusi, saya akan mempertimbangkan untuk
menghapus baris tersebut. Pendekatan ini saya lakukan untuk menjaga integritas data dan memastikan analisis tetap akurat dan andal.
QUESTION 6
Anda diberikan sebuah dataset berisi data penjualan kendaraan bermotor. Dataset ini memiliki beberapa kolom kategorikal seperti “Jenis Kendaraan”, “Warna”, dan “Asal Produksi”. Anda perlu melakukan analisis statistik untuk memahami distribusi data dan menentukan apakah terdapat kolom yang dapat diabaikan dalam analisis lebih lanjut. Apa yang harus Anda periksa pada ringkasan statistik dari setiap kolom untuk memahami distribusi datanya? Berikan contoh kolom kategorikal dan jelaskan bagaimana Anda
menentukan apakah kolom tersebut layak untuk diabaikan. Jelaskan langkah-langkah yang Anda lakukan untuk mengidentifikasi distribusi yang tidak simetris pada kolom numerik, dan bagaimana Anda akan menangani distribusi tersebut dalam analisis.
ANS:
Untuk menganalisis dataset penjualan kendaraan bermotor, saya akan memeriksa frekuensi dan proporsi dari setiap kategori di kolom seperti “Jenis Kendaraan”, “Warna”, dan “Asal Produksi” untuk memahami distribusi data. Jika terdapat kategori dengan frekuensi yang sedikit, seperti hanya 1% dari total, kolom tersebut mungkin bisa diabaikan. Misalnya, jika kolom "Warna" memiliki beberapa warna langka, saya akan mempertimbangkan untuk mengabaikannya.
Untuk kolom numerik, saya akan menghitung ringkasan statistik (mean, median, mode, dan standar deviasi) dan membuat histogram atau boxplot untuk mendeteksi skewness. Jika ada perbedaan signifikan antara mean dan median atau jika histogram menunjukkan ekor yang panjang, distribusi dianggap tidak simetris. Dalam hal ini, Saya bisa melakukan transformasi log atau square root, atau menggunakan metode analisis non-parametrik jika transformasi tidak berhasil.
QUESTION 7
Bayangkan Anda adalah seorang analis data di sebuah perusahaan ritel online yang memiliki database transaksi pelanggan yang sangat besar. Anda diminta oleh tim manajemen untuk menganalisis data ini dengan beberapa teknik yang akan membantu
memahami perilaku pelanggan, tren pembelian, dan karakteristik demografi. Anda perlu memfilter data pelanggan untuk fokus pada kelompok tertentu yang lebih relevan dengan kampanye pemasaran terbaru, misalnya, hanya pelanggan yang berusia antara 25 hingga 40 tahun dan tinggal di kota besar. Analisis seberapa penting proses penyaringan data (rows-filtering) dalam analisis data? Bagaimana hal ini mempengaruhi hasil akhir analisis?
ANS:
Proses penyaringan data (rows-filtering) sangat penting dalam analisis data dikarenakan memungkinkan fokus pada kelompok pelanggan yang relevan, seperti mereka yang berusia 25 hingga 40 tahun dan tinggal di kota besar, untuk kampanye pemasaran tertentu. Dengan menyaring data ini, analisis menjadi lebih akurat dan kontekstual serta dapat mengurangi noise dari informasi yang tidak relevan. Hal ini memastikan bahwa wawasan yang dihasilkan lebih tepat dalam menggambarkan perilaku dan preferensi segmen target, sehingga
meningkatkan efektivitas strategi pemasaran. Tanpa penyaringan yang tepat, hasil analisis dapat menjadi tidak representatif, mengarah pada keputusan yang kurang optimal dalam alokasi sumber daya dan pengembangan kampanye.
QUESTION 8
Tim data science Anda ingin membuat model prediktif dan memerlukan subset dari data yang representatif untuk menghemat waktu komputasi. Anda diminta untuk melakukan pengambilan sampel secara acak dari keseluruhan dataset. Mengapa sampling dan randomisasi sangat penting dalam analisis data skala besar? Apa manfaatnya dalam membangun model prediktif?
ANS:
Sampling dan randomisasi sangat penting dalam analisis data skala besar karena keduanya membantu menghasilkan subset data yang representatif tanpa memerlukan pengolahan seluruh dataset, yang dapat memakan waktu dan sumber daya yang signifikan. Dengan menggunakan sampling acak, saya dapat memastikan bahwa setiap elemen dalam populasi memiliki peluang yang sama untuk dipilih, sehingga mengurangi bias dan meningkatkan generalisasi model. Manfaatnya dalam membangun model prediktif termasuk pengurangan waktu komputasi dan biaya, serta peningkatan efisiensi dalam pengujian dan validasi model.
Selain itu, subset yang representatif memungkinkan analisis yang lebih akurat mengenai pola dan hubungan dalam data, sehingga model yang dihasilkan lebih mampu untuk melakukan prediksi yang baik pada data yang belum pernah dilihat sebelumnya.
QUESTION 9
Anda memiliki dataframe yang berisi data hasil agregasi dari grup berdasarkan kategori produk. Data ini berbentuk "long" dan Anda perlu membuat tabel pivot untuk menganalisis hasil agregasi dengan lebih efektif. Jelaskan kegunaan tabel pivot dalam analisis data, khususnya saat bekerja dengan dataframe yang telah di-group by.
ANS:
Tabel pivot sangat berguna dalam analisis data karena memungkinkan transformasi data frame yang berbentuk "long" menjadi format yang lebih ringkas dan terstruktur, sehingga memudahkan analisis hasil agregasi berdasarkan kategori produk. Dengan menggunakan tabel pivot, saya dapat dengan cepat menyajikan ringkasan statistik seperti total, rata-rata, atau jumlah untuk setiap kategori, memungkinkan identifikasi pola dan tren yang lebih jelas.
Selain itu, tabel pivot memberikan fleksibilitas dalam memilih variabel yang ingin dianalisis dan cara agregasi yang sesuai, mengurangi kompleksitas data dan mempermudah
pengambilan keputusan berbasis data. Ini menjadikannya alat yang efektif untuk memahami dan menganalisis hasil agregasi secara menyeluruh.