Nama : Raihan Ramadhan Nim : 202023022 Prodi : Teknik Mesin UAS Data Science
1. Sebutkan dan jelaskan langkah langkah dalam data science dari awal sampli dengan akhir, dari semua langkah tersebut, langkah apa yang paling sulit menurut anda, berikan asalanya kenapa menurut anda langkah tersebut paling sulit?
Jawab :
a) Menentukan tujuan: Tentukan tujuan analisis atau pemodelan yang ingin dicapai dengan data yang akan dikumpulkan. Jelaskan pertanyaan atau hipotesis penelitian yang ingin dijawab.
b) Identifikasi sumber data: Identifikasi sumber data yang dapat digunakan untuk menjawab pertanyaan atau mendukung hipotesis penelitian. Sumber data dapat berupa basis data internal perusahaan, data publik, data sensor, data pihak ketiga, atau survei.
c) Desain skema pengumpulan data: Tentukan metode pengumpulan data yang paling sesuai dengan tujuan penelitian. Metode ini bisa termasuk survei, pengukuran langsung, pengumpulan data historis, pengumpulan data real-time, atau kombinasi dari beberapa metode.
d) Membuat instrumen pengumpulan data: Jika menggunakan survei atau metode pengumpulan data lainnya, buat instrumen pengumpulan data yang sesuai. Ini dapat berupa kuesioner, formulir, skrip pengumpulan data otomatis, atau alat pengukuran khusus. Mengumpulkan data Langkah langkah pengumpulan data
e) Mengumpulkan data: Lakukan pengumpulan data sesuai dengan metode dan instrumen yang telah ditentukan. Pastikan data dikumpulkan dengan akurat dan sesuai dengan tujuan penelitian.
f) Menyimpan dan mengamankan data: Simpan data yang dikumpulkan dengan aman dan sesuai dengan kebijakan privasi dan keamanan yang berlaku. Pastikan backup data secara teratur untuk mencegah kehilangan data yang berharga.
g) Melakukan validasi data: Setelah pengumpulan data selesai, lakukan validasi data untuk memastikan integritasnya. Periksa apakah data lengkap, tidak ada nilai yang hilang atau tidak mungkin, dan apakah data konsisten dengan harapan.
Langkah yang menurut saya sulit ialah ketika mengumpulkan data science dan mendapatkan team perlu memerlukan chemistry masing-masing. Terkadang yang statistiknya cocok sama data analistnya, tapi tidak cocok sama data engineernya sehingga menjadi tidak nyambung.
Ternyata bisnis analisnya tidak nyambung kearah teknisnya. Kemudian ketika building team ternyata ada perilaku data-data yang mereka kuat di area engineering atau statistic, namun ilmu kita juga tidak kuat disana.
Didalam team ada 4 pemikiran yang punya interprestasi masing masing, kadang-kadang koordinasi dengan usernya kurang intens sehingga yang diinginkan user A yang dikerjakan B.
Jadi, nanti ada seorang penghubung antara kebutuhan user dan teknis, kalau teknis mereka mengerjakannya secara praktis mereka bisa mengerjakannya secara teknis tapi kadang yang diinginkan user berbeda dan inilah yang harus kita blend sama-sama.
Jadi, kita build data scientist team untuk mengatasi masalah analitical data. Mereka bekerja sama tidak hanya dengan team data scientist saja, tetapi dengan user juga.
2. Sebutkan dan jelaskan langkah langkah dalam menentukan/memilih model yang paling cocok dengan kebutuhan dalam data science?
Jawab :
Untuk pemilihan model yang digunakan adalah regresi linear. Ada berbagai jenis model yang dapat digunakan dalam data science, seperti regresi linier, pohon keputusan, jaringan saraf tiruan, atau algoritma pembelajaran mesin lainnya. Pemilihan model tergantung pada sifat data, jenis masalah, dan tujuan dari analisis.
a. Memahami masalah
Langkah pertama yang harus dilakukan dalam proses modeling adalah memahami permasalahan yang terjadi. Data Scientist akan memperhatikan kata kunci dan frasa penting yang diungkapkan oleh pakar bisnis ketika melakukan wawancaraData extraction Ekstraksi dilakukan bukan pada sembarang data, melainkan pada potongan data yang tidak terstruktur. Selain itu, data tersebut harus relevan dengan masalah bisnis yang akan diatasi. Data extraction dilakukan dari berbagai sumber online, survey, serta database yang ada.
b. Data cleaning
Merupakan proses penting sebelum terjadi pengumpulan materi-materi data
menjadisatu. Alasannya agar tidak terjadi inkonsistensi atau kesalahan pada pengolahan data.
c. Exploratory data analysis
Teknik yang satu ini digunakan untuk membiasakan diri dengan data kemudian mengekstraksi wawasan yang berguna. Data Scientist akan menyaring data yang tidak terstruktur untuk menemukan pola serta menyimpulkan hubungan antara setiap elemen data. Tools untuk keperluan statistics dan visualization akan merangkum central
measurements dan variabilitas untuk proses exploratory data analysis. Transformasi yang sesuai akan digunakan untuk mengimplementasikan skala distribusi di sekitar nilai rata- ratanya.
d. Feature selection
Proses ini akan mengidentifikasi dan memilih fitur yang paling berkontribusi pada variabel prediksi atau output tertentu secara manual maupun otomatis. Karakteristik data yang tidak relevan mampu mengurangi akurasi modeling. Akibatnya, hasil modeling cenderung terlatih berdasarkan fitur yang tidak relevan.
e.Menggabungkan machine learning algorithms
Inilah proses paling penting dalam data science modeling karena machine learning algorithms membantu penciptaan data modeling sesuai kegunaan. Ada banyak algoritma yang bisa dipilih berdasarkan masalah saat itu dengan tiga jenis machine learning,
yaitu:
• Supervised learning berdasarkan hasil operasi sebelumnya terkait bisnis yang ada. Komponen ini membantu memprediksi suatu hasil. Beberapa algoritma yang ada di dalamnya adalah linear regression, random forest, dan support vector machines
• Unsupervised learning tidak punya konsekuensi atau pola yang sudah ada sebelumnya. Sebaliknya, unsupervised learning berkonsentrasi pada pemeriksaan interaksi dan koneksi antara titik data yang tersedia saat ini.
Beberapa algoritmanya adalah k-Nearest Neighbors (KNN), clustering hierarchical, dan anomaly detection
• Reinforcement learning adalah teknik machine learning yang menggunakan datasets dinamis dan berinteraksi dengan dunia nyata. Secara sederhana, mekanisme sistem akan belajar dari kesalahan dan mengalami perkembangan dari waktu ke waktu. Berbagai algoritma yang ada dapat berupa Q-Learning, State-Action-Reward-State-Action (SARSA), serta Deep Q Network
f.Model testing
Fase berikutnya memastikan bahwa upaya data modeling mampu memenuhi ekspektasi.
Hasil modeling akan diterapkan pada test data untuk mengecek keakuratan dan fitur yang ada di dalamnya.
g. Model deploying
Model dengan hasil terbaik berdasarkan pengujian akan melewati tahap penyelesaian dan penerapan di lingkungan produksi. Hal ini dilakukan setiap kali kebutuhan bisnis berhasil terpenuhi dan diakhiri dengan kesimpulan terhadap proses data modeling.
3. Sebutkan dan jelaskan minimum 2 jenis visualisasi yang sangat direkomendaikan dalam menampilkan hasil dari data science, dan berikan alasan kenara 2 visualisasi tersebut yang paling direkomendasikan dibandingkan dengan jenis visualisasi lainya?
Jawab :
• Grafik Bar dan Grafik Batang Grafik bar digunakan untuk menampilkan data kategorikal, sedangkan grafik batang digunakan untuk menampilkan data numerik diskrit. Grafik ini memvisualisasikan hubungan antara kategori atau variabel dengan jumlah atau frekuensinya.
• Grafik Garis Grafik garis digunakan untuk menampilkan tren dan pola dalam data berbasis waktu atau data yang mempunyai urutan. Grafik garis efektif dalam memvisualisasikan perubahan nilai variabel seiring waktu. Visualisasi data yang saya gunakan: Menyajikan dan mengkomunikasikan hasil analisis kepada CEO. Dengan menggunakan visualisasi data seperti tabel, grafik, atau diagram untuk memudahkan pemahaman dan penyampaian hasil analisis saya.
4. Jika ada seorang data scienties, apa tugas yang harus dilakukan dari awal sampai akhir ?
Jawab :
Seorang data scientist itu harus melihat hubungan antara data baru dengan data
sebelumnya. Setiap perusahaan memiliki report yang harus dikeluarkan setiap hari lalu data scientist tinggal menjalankan programnya sesuai model yang telah mereka buat. Lalu mereka melakukan monitoring terhadap proses – proses tersebut. Seorang data scientist harus memiliki komunikasi yang baik terhadap client dikarenakan kebutuhan analitik data terdapat pada client. Pasti ada, jadi yang memikirkannya itu bukan hanya teman-teman di klien saja, tetapi scientist kita juga memikirkan kenapa tidak bisa. Misalnya, mungkin dulu saat kuliah pernah beli kartu perdana di counter mereka bilang sudah diaktifkan tinggal pakai saja, berarti sudah diaktifkan oleh pemilik counternya. Dan itu ternyata adalah sebuah vroot. Dan itu ditemukannya seperti ini, misalkan ada operator, operator tersebut punya agen, dan agen tersebut juga punya distributor. Distributor punya pengecer, setiap pengecer distributor agen mereka punya target untuk mendapatkan bonus. Misalnya dilevel pengecer ketika dia bisa menjual 100 nomer itu, mereka akan dapat bonus sekian juta. Level distributor jika bisa menjual sekian ribu akan mendapatkan bonus sekian puluh juta, agent juga sama, karena yang dicari oleh operator ialah sebanyak-banyaknya nomer yang aktif. Semakin banyaknya subscriber, maka mereka menganggap pendapatan mereka makin tinggi. Ternyata tandanya nomer terjual itu nomernya aktif yang tadinya statusnya nonaktif lalu aktif berarti sudah terjual. Misalnya dalam sebulan si pengecer ini kalau menjual 100 dapat uang 1 juta,
ternyata di tanggal 28 mereka baru menjual 90, dan susah mengejar 10 lagi dalam waktu dua hari. Lalu mereka mengaktifkan nomer yang belum terjual, yang akhirnya di tanggal 29 mereka sudah punyai 100 penjualan dan lalu dapat bonus. Kecurangan operator ini bagaimana cara mendeteksinya. Akhirnya berkumpul teman-teman data scientist lalu membicarakan bagaimana caranya mendeteksi jika nomer ini adalah nomer yang sudah dilakukan reactivasi, jadi sebelum dijual sudah diaktifkan. Ternyata caranya cari saja orang – orang yang sms ke 440 dari data data transaksi berupa sms ke 444 ternyata dari imei yang sama dalam waktu dekat menggunakan imei yang sama. Kita bisa coret nomer nomer itu agar si pengecer tidak dapat bonus. Tetapi tidak segampang itu, pengecer pintar, mereka beli alat dari china mereka masukkan sim card itu perlu di protect lagi tinggal masukkan saja lalu imeinya diacak. Dan disini seorang data science harus bisa mengatasi cara mendeteksinya lalu ternyata itu bisa diketahui dengan metode ini dan ini. Dan itu yang masih belum terpecahkan, namun akhirnya tepecahkan
5. Jawab :
Study Case bussines owner:
Anda adalah seorang data scientist disebuah Perusahaan otomotif, CEO meminta anda untuk menggunakan data science untuk melihat Bagaimana Peluang Pasar Mobil Listrik di
Indonesia pada masa 10 tahun yang akan dating dengan menjawab pertanyaan berikut :
• Mobil listrik jenis apa dan rentang harga yang paling dimininati dalam 10 Tahun kedepan?
• Strategi Pemasaran apa yang bisa dilakukan untuk meningkatkan penjualan mobil listrik dalam 10 Tahun kedepan?
Untuk menjawab pertanyaan tersebut dengan menggunakan proyek data science, kami akan melakukan langkah-langkah berikut:
1. Memahami masalah secara jelas dan spesifik. Mendefinisikan masalahnya sebagai : bagaimana mengetahui model mobil listrik dan rentang harga yang paling diminati oleh konsumen Indonesia dalam 10 tahun ke depan dan bagaimana menentukan strategi pemasaran yang efektif untuk meningkatkan penjualan mobil listrik dalam 10 tahun ke depan.
2. Mengumpulkan data yang relevan dengan masalah. Mencari sumber data primer dan sekunder yang bisa memberikan informasi tentang permintaan, penawaran, dan faktor-faktor yang mempengaruhi pasar mobil listrik di Indonesia. Sumber data primer bisa didapatkan dari survei, wawancara, atau observasi langsung kepada konsumen potensial atau pelaku industri. Sumber data sekunder bisa didapatkan dari laporan pemerintah, lembaga riset, media massa, atau hasil pencarian web.
Contoh data yang saya gunakan adalah sebagai berikut:
Data penjualan mobil listrik di Indonesia dari Gabungan Industri Kendaraan Bermotor Indonesia (GAIKINDO)
Data potensi mobil listrik di Indonesia dari Kementerian Energi dan Sumber Daya Mineral (ESDM)
Data harga mobil listrik di Indonesia dari berbagai merek yang tergabung dalam GAIKINDO.
Data pendapatan, preferensi konsumen, kebijakan pemerintah, infrastruktur pendukung, dan jenis mobil dari survei, wawancara, atau observasi langsung yang saya lakukan kepada konsumen potensial atau pelaku industri.
Data pertumbuhan ekonomi dan populasi Indonesia dari Badan Pusat Statistik (BPS)
https://katadata.co.id/jeany/analisisdata/619b5c2f1f4ec/masa - depan - mobil - listrik - indonesia https://www.bps.go.id/
https://otomotif.kompas.com/read/2019/12/13/091200015/daftar - mobil - listrik - yang - ada - di
indonesia https://www.cnbcindonesia.com/news/20210119121258 - 4 - 217097/2021 - penggunaan mobil - listrik - ri - bisa - sampai - 125 - ribu - unit
3. Pemrosesan data: Membersihkan dan menyiapkan data untuk analisis. Melakukan proses data cleaning untuk menghapus atau memperbaiki data yang tidak valid, tidak lengkap, tidak konsisten, atau tidak relevan. Saya juga akan melakukan proses data transformation untuk mengubah format, struktur, atau skala data agar sesuai dengan kebutuhan analisis. Saya juga akan melakukan proses data integration untuk menggabungkan data dari berbagai sumber atau jenis menjadi satu dataset yang komprehensif dan konsisten.
4. Analisis data meliputi Mengeksplorasi dan menganalisis data untuk mendapatkan wawasan. Beberapa metode analisis seperti deskriptif untuk mendapatkan gambaran umum tentang karakteristik dan distribusi data. Metode analisis inferensial untuk menguji hipotesis atau asumsi tentang hubungan antara variabel- variabel yang relevan dengan masalah. Metode analisis prediktif untuk membuat model atau algoritma yang bisa memprediksi model mobil listrik dan rentang harga yang paling diminati oleh konsumen Indonesia dalam 10 tahun ke depan berdasarkan data historis dan tren pasar.
5. Pembuatan model . Bisa mengunakan metode analisis regresi linier berganda.
Regresi linier berganda adalah metode analisis yang digunakan untuk memodelkan hubungan antara satu variabel dependen dengan dua atau lebih variabel independen. Dalam kasus ini, variabel dependen adalah permintaan mobil listrik berbasis baterai (BEV) dan variabel independennya adalah harga, pendapatan, preferensi konsumen, kebijakan pemerintah, infrastruktur pendukung, dan jenis mobil.
6. Evaluasi. Untuk mengevaluasi model regresi linier berganda bisa menggunakan metode statistik seperti koefisien determinasi (R-squared), uji F, uji t, dan uji asumsi klasik. Metodemetode ini bertujuan untuk mengukur seberapa baik model saya bisa menjelaskan variasi data, seberapa signifikan model saya secara keseluruhan dan secara parsial, dan seberapa memenuhi asumsi-asumsi dasar regresi linier.
7. Visualisasi data: Menyajikan dan mengkomunikasikan hasil analisis kepada CEO.
Dengan menggunakan visualisasi data seperti tabel, grafik, atau diagram untuk memudahkan pemahaman dan penyampaian hasil analisis saya. Saya juga akan memberikan penjelasan teknis dan bisnis tentang metodologi, asumsi, keterbatasan, dan implikasi dari hasil analisis saya.
Setelah melalui Langkah-langkah dalam data science di atas berikut contoh jawaban yang bisa di berikan untuk menjawab pertanyaan di awal :
Mobil listrik jenis apa dan rentang harga yang paling dimininati dalam 10 Tahun kedepan? Mobil listrik yang paling diminati oleh konsumen Indonesia dalam 10 tahun ke depan adalah mobil listrik dengan jenis SUV atau MPV, dengan kapasitas baterai minimal 50 kWh dan jangkauan minimal 400 km. Rentang harga yang paling diminati adalah sekitar Rp 400 juta hingga Rp 600 juta.
Permintaan mobil listrik di Indonesia diperkirakan akan meningkat dari sekitar 1.000 unit pada 2020 menjadi sekitar 500.000 unit pada 2030.
Strategi Pemasaran apa yang bisa dilakukan untuk meningkatkan penjualan mobil listrik kendaraan umum maupun pribadi dalam 10 Tahun kedepan?
Membangun kesadaran dan minat konsumen terhadap mobil listrik dengan melakukan kampanye edukasi dan promosi yang menekankan manfaat, keunggulan, dan kenyamanan menggunakan mobil listrik.
Menyediakan insentif dan fasilitas bagi konsumen yang ingin membeli atau menggunakan mobil listrik, seperti pembebasan pajak, subsidi, diskon, cicilan ringan, garansi, layanan purna jual, dll
Meningkatkan ketersediaan dan kualitas infrastruktur pendukung untuk mobil listrik, seperti stasiun pengisian daya, stasiun penukaran baterai, bengkel khusus, dll.