• Tidak ada hasil yang ditemukan

Pengertian dan Konsep Data Science

BAB III DATA SCIENCE

A. Pengertian dan Konsep Data Science

Data science adalah sebuah bidang interdisipliner yang menggunakan metode, proses, algoritma, dan sistem ilmiah dalam mengekstrak knowledge dan insight dari sebuah data terstruktur dan data yang tidak terstruktur (Dhar, 2013), dan menerapkan pengetahuan dan wawasan yang dapat ditindaklanjuti dari data di berbagai domain aplikasi. Data science terkait dengan data mining, machine learning, dan big data.

Data science merupakan sebuah konsep untuk menyatukan statistik, analisis data, informatika, dan metode terkait untuk memahami dan menganalisis fenomenal aktual dengan data (Hayashi, 1998). Ini menggunakan teknik dan teori yang diambil dari berbagai bidang dalam konteks matematika, statistik, ilmu komputer, ilmu informasi, dan pengetahuan domain. Namun, data science berbeda dari computer science dan information science.

Pemenang Turing Award, Jim Gray membayangkan data science sebagai “paradigma keempat” ilmu pengetahuan (empiris, teoritis, komputasi, dan sekarang data driven) dan menegaskan bahwa segala sesuatu tentang sains berubah karena dampak dari information technology dan data deluge (Tony Hey, at al. 2009).

Data science adalah bidang interdisipliner yang berfokus pada penggalian pengetahuan dari datasets, yang biasanya berukuran besar (big data), dan menerapkan pengetahuan dan wawasan yang dapat ditindaklanjuti dari data untuk memecahkan masalah dalam berbagai domain aplikasi. Bidang ini mencakup penyiapan data untuk analisis, merumuskan masalah data science, menganalisis data, mengembangkan solusi berbasis data, dan menyajikan temuan untuk menginformasikan keputusan tingkat tinggi dalam berbagai domain aplikasi. Dengan demikian, ini menggabungkan keterampilan dari computer science, statistics,

information science, mathematics, information visualization, data integration, graphic design, complex systems, communication dan business. Ahli statistik Nthan Yau, menghubungkan ilmu data dengan interaksi human-computer, dimana pengguna harus dapat mengontrol dan menjelajahi data secara intuitif. Pada tahun 2015, American Statistical Association mengidentifikasi manajemen database, statistik dan machine learning, dan sistem terdistribusi pararel sebagai tiga “kominitas profesional” dasar yang muncul.

Data science merupakan ilmu dasar yang digunakan untuk memproses sebuah data yang melibatkan data dan sains. Data science mulai didengungkan pada tahun 80-an dan 90-an dan mulai dipublikasikan pada tahun 2009 oleh Andrey Gelman dan Dj Patil.

Secara sederhana data science terjadi ketika kita bekerja dengan data untuk menemukan jawaban atas pertanyaan- pertanyaan. Penekanannya lebih kepada data itu sendiri dan bukan tentang sains atau ilmunya. Jika kita memiliki data, lalu kita memiliki curiousity tentang isi data yang bermanfaat lalu untuk menjawab rasa ingin tahu tersebut dengan mempelajari data, melakukan eksplorasi terhadap data dan melakukan berbagai hal untuk menganalisis data tersebut dengan memanfaatkan ilmu dan teknologi tertentu untuk menemukan jawaban.

Sumber : Staven Geringer, 2014

Gambar 3.1. Disiplin Interilmu dari Data Science

Tujuan akhir data science adalah untuk menemukan insight dari data. Data science dapat dipandang sebagai proses untuk mendestilasi atau mengektraksi atau menggali insight dari data tersebut. Data yang diolah dapat berukuran sangat besar. Insight tersebut dapat diibaratkan sebagai emas atau berlian, yang meskipun hanya sedikit atau berukuran kecil, namun tetap berharga. Insight tersebut dapat berupa sebuah informasi yang penting maupun model-model yang dibuat dari data yang akan sangat bermanfaat dalam pengambilan suatu keputusan. Insight yang ingin diperoleh dari data perlu diawali dengan rasa keingin- tahuan yang kuat dari diri sendiri atau dari suatu organisasi (berupa kebutuhan karena ada masalah yang ingin diselesaikan dengan memanfaatkan data). Selanjutnya berbekal hal ini, nantinya seorang data scientist dapat melakukan berbagai aktifitas dengan memanfaatkan ilmu dan teknologi yang sesuai untuk mendapatkan insight yang diinginkan.

Umumnya data scientist dibutuhkan oleh organisasi- organisasi yang telah memiliki sistem-sistem teknologi informasi sebagai sumber data. Karena “data telah menumpuk” lalu ada kesadaran untuk mendapatkan insight yang bermanfaat. Untuk organisasi bisnis (misalnya perusahaan e-commerce, bank, transportasi dan pariwisata), insight bisa ditujukan untuk memperbaiki organisasi. Perbaikan itu misalnya karyawan dapat menjadi lebih produktif, proses bisnis menjadi lebih efisien sehingga menurunkan biaya operasional, penjualan produk/jasa yang meningkat sehingga menaikkan keuntungan, service ke customer menjadi lebih memuaskan sehingga pelanggan lebih loyal. Pada organisasi pemerintah yang memberikan pelayanan kepada masyarakat, misalnya untuk meningkatkan produktivitas pegawai dan memperbaiki pelayanan. Pada organisasi riset di bidang sains, kebutuhannya akan berbeda, misalnya untuk menemukan sebuah model dari data yang bermanfaat untuk melakukan prediksi di masa depan. Model itu misalnya model prediksi panen tanaman, bencana, kebutuhan energi, kebutuhan transportasi penduduk, kerusakan lingkungan, dan sebagainya.

Dilansir dari (EMC, 2015), ketika seorang data scientist bekerja di organisasi-organisasi diatas, secara umum tahap-tahap yang dilakukan adalah sebagai berikut :

Gambar 3.2. Tahap-Tahap Data Scientist

Pendefinisian Masalah

Data scientist mendefiniskan masalah dan kebutuhan dari organisasi yang harus didapatkan jawaban atau solusi dari masalah tersebut. Misalnya bagaimana menurunkan biaya produksi dan membuat customer lebih sering untuk belanja, dan dapat juga dengan memperkirakan insight spesifik yang akan digali dari data tersebut seperti apa nantinya.

Tahap Pengumpulan Data

Berdasarkan insight yang akan didapatkan, data scientist biasanya perlu untuk merumuskan data apa saja yang akan dibutuhkan. Data tersebut dapat saja sudah tersedia semua atau hanya baru sebagaian. Jika hanya sebagian, maka data scientist perlu untuk mencari dan mengumpulkan data yang dapat berasal dari satu, dua atau lebih sumber perolehan data. Dalam hal ini,

tugas pengumpulan data menjadi lebih kompleks atau berat karena harus dilakukan dengan mengakses berbagai sumber data dan pada sistem yang kompleks, data scientist biasanya akan membutuhkan bantuan dari praktisi lain, khususnya dalam hal ini adalah data engineer yang tugasnya lebih berfokus pada infrastruktur dan sistem pengelolaan data organisasi (misalnya berupa data harga saham, data kependudukan, cuaca dan satelit yang tersedia di cloud), data scientist bisanya dibantu dengan data engineer, perlu untuk mengambil data tersebut jika data tersebut belum tersedia di sistem organisasi maupun di luar.

Tahap Eksplorasi dan Penyiapan Data

Setelah data terkumpul, seluruh komponen data perlu dipelajari lebih lanjut. Misalnya, jika data berbentuk sebuah tabel, maka makna dan nilai tiap kolom harus dipahami lebih teliti. Untuk memahami data yang cukup kompleks dan berukuran sangat besar, seringkali perlu dibuat visualisasinya dan komputasi statistik untuk mendapatkan ringkasan data (misalnya mencari rata-rata, median, nilai minimum dan maksimum, dan distribusi data). Data juga harus diperiksa, karena seringkali data hasil dari pengumpulan tersebut masih “kotor”, berisi nilai yang salah atau ada nilai yang hilang.

Tahap Analisis Data

Jika data yang disiapkan sudah baik, selanjutnya pada tahap ini dapat dilakukan dengan lebih mudah, jika data scientist sudah menguasai teknik dan algoritma, teknologi atau tools yang akan digunakan nantinya. Berdasarkan insight yang akan didapatkan, dapat dipilih teknik atau algoritma yang sesuai yang dapat berasal dari algoritma machine learning yang merupakan subset dari artificial intelligence atau kecerdasan buatan. Data scientist perlu untuk memahami data yang ditangani, behavior, prinsip kerja, kelebihan dan kekurangan berbagai algoritma agar dapat memilih algoritma yang tepat.

Story Telling

Seorang data scientist harus mampu dalam mengkomunikasikan proses dan hasil temuan analisis datanya dengan sistematis, menarik, dan mudah dipahami bagi banyak orang atau yang berkepentingan dalam proses maupun hasil tersebut. Bergantung kebutuhan di organisasi tempat data scientist bekerja, komunikasi dapat dilakukan secara tertulis atau reporting maupun penyampaian secara langsung pada rapat atau seminar.