• Tidak ada hasil yang ditemukan

DATA SCIENCE Syahrimi binti Hasbullah Pe

N/A
N/A
Protected

Academic year: 2018

Membagikan "DATA SCIENCE Syahrimi binti Hasbullah Pe"

Copied!
77
0
0

Teks penuh

(1)

DATA SCIENCE

(2)

2 Slaid #

Contents

Introduction to Big Data

Introduction to Big Data Analytics

Data Science

(3)
(4)
(5)

5 Slaid #

exponential growth 

availability of data

structured and unstructured

Characteristics: 4V? 5V? 7V?

And big data may be as important to business – and society – as 

the Internet has become. Why? More data may lead to more 

accurate 

analyses

.

(6)

6 Slaid #

(7)

7

(8)

Challenge?

“high­volume, velocity and 

variety information assets 

that demand cost­effective, 

innovative forms of 

information processing for 

enhanced insight and 

(9)

9

Big Data Ecosystem

Data Sources/

Advanced Data

Management

Advanced Data

Analytics

(10)

© INTAN 201710

(11)

Who Generate Data?

Data Lake

Human

Organization

(12)

© INTAN 2017

Data Types

Data Types

Structured Data

Semi­

Structured 

Data

(13)

Partial Tweet in JSON format

How does Big Data Look Like?

Web log

(14)

© INTAN 2017

Data Warehouse

(15)

Data Lake

Keep data in original raw and un­modelled format

limited amount of “species”

constrained by its size

smaller set of data is analyzed in more detail to

(16)
(17)

Data Ocean

collection of un­modelled data from the entire business, from

every possible area

kept in a single repository

The size of these oceans is vast

improvements in analytics technology

(18)

© INTAN 201718

(19)

KAJIAN KES:

FACEBOOK

(20)

© INTAN 2017

JANTINA UMUR

LELAKI PEREMPUAN

18­29

30­49

50­64

65+

LOKASI

(21)
(22)

©

IN

TA

N

2

0

1

7

Tracking cookies

Facial recognition

(23)

Introduction to Big Data Analytics 

and Data Science

(24)

© INTAN 2017

Contents

What is Big Data Analytics (BDA)?

Overview of BDA Process

Traditional Approach vs Big Data Analytics

Types of Analytics

Data Science

Data Scientist

Methodology

(25)

What is Big Data Analytics (BDA)?

Definition 1: Science of 

examining raw data 

with the purpose of 

drawing conclusions 

about that information

Uncover hidden patterns, correlations, verify or 

disprove existing models or theories for better 

business  decisions making

Definition 2: Process of 

examining large data sets

containing a variety 

of data types

(26)

© INTAN 2017

Overview of BDA Process

Information

Unstructured  data Semi­

structured  data

Structured  data

Knowledge/insight

(27)

Comparison: Traditional & Big Data Analytics

Traditional Analytics

Big Data Analytics (BDA)

27

Structured data

Relational data model

Statistical methods

Limited value

Structured,

semi/unstructured data

Various data model with

no relation

Advanced analytics

(28)

© INTAN 2017

Types of Analytics

28

Descriptive

Past data

Diagnostic

Answer

why

it

happen

Tell you

what

and

why

it happened

understand the

causes of events

and behaviors

Predictive

Answer

what,

why

and

when

it will happen

Forecast what

might/could

happen in

future

Prescriptive

Answer

what

,

when

and

how

to make it

happen

(29)

Predictive Analytics

prediction of future probabilities  and trends.

predictor

, a variable that can be measured for 

an individual or other entity to predict future 

behavior.

Predictive Analytics use statistical 

models and forecasts techniques to 

understand the future and answer 

What could happen?

(30)

© INTAN 2017

Prescriptive Analytics

Prescriptive Analytics 

extends beyond predictive 

analytics by specifying both the actions necessary 

to achieve predicted outcomes, and the interrelated 

effects of each decision

Prescriptive Analytics use optimization 

and simulation algorithms to advice on 

possible outcomes and answer “What 

should we do?”

(31)

3 Phases of Prescriptive Analytics

(32)
(33)

BDA: Malaysia’s Case Study

to enhance Malaysia Airports’ retailer

management system within KLIA and provide

value-added services for travelers

400,000 square foot containing retail outlets

at various locations

Accuracy of information gathered

A precise method to track spending trends

Install sensors (IoT devices for data collection)

Mobile apps track customers basic

demographic

Develop BI platform to show dashboard

reporting to clients

Objective

Challenge

Solution

Benefit

Understand

traveler habit and

shopper behavior

(34)

© INTAN 2017

(35)

DATA PROFESSIONALS

The roles of data professionals can be split into:

Data Scientists: People who provide valuable insights from data to the business units and 

management. Able to translate data into business story 

Data Modellers: People who models the available  data 

Data Analysts: People who analyses huge amount of data available 

Data Miners: People who work with mining and processing of raw data for analysis 

The demand for data scientists is expected to grow the fastest at 66.7% (CAGR)

­ IDC  2015

(36)

© INTAN 2017

Data Science

“Data science is the study of 

where information comes from, 

what it represents  and how it 

can be turned into a valuable 

resource 

in the creation of 

business and IT strategies.”

Source: Wikipedia

(37)

Skillset

• Integrasi data 

• Kualiti data 

• Pembersihan data 

• Matematik statistik

• Analisis dan model statistik

• Pengujian statistik

• Pemprosesan Bahasa  Semula Jadi/Natural  Language Processing

• Pembelajaran mesin (Machine Language)

• Model ramalan (prediction  model)

• Visualisasi data 

• Kemahiran Pelajaran Teras

• Pengetahuan perkhidmatan atau domain  tertentu

• Pengaturcaraan

• Gudang data (data  warehouse)

• Komunikasi

• Kreativiti dan inovasi

(38)

© INTAN 2017

Data Science Process

(39)

© INTAN 2017

Project is

monitored for its effectiveness, stability and capacity with

regards to business requirements

- acquiring and

exploring available data

- Identifying:

- data cleansing needs

- opportunities for data enrichment - analysis that can

be done with the available data

Methodology

identifying stakeholders, understanding the

business operations and needs, and

identifying opportunities from existing and new data that can benefit the business

defining and documenting the scope of work, business

requirements , user requirements and system requirements of the project

development of data model and analysis algorithms to

process data to produce results needed by the business

development of Data Product, i.e dashboard visualization reporting software or a more complex data driven

application

Product is evaluated against the business requirements, and then rolled out into the production

(40)
(41)
(42)
(43)
(44)
(45)
(46)
(47)

Key Roles for a Successful Analytics Project

creates  DB  environment

Technical skill Analytic  technique and 

(48)
(49)

Key output from each main shareholders

needs to share the code and explain the model to her peers, 

managers, and other stakeholders

Business User

Project Sponsor

Project Manager

BI Analyst

DE and DBA

Data Scientist

determine the benefits and implications of the findings to 

the business

questions related to the business impact of the project, the 

risks and return on investment (ROI), how the project can be 

implemented within the organization (and beyond)

determine if the project completion within planned time and 

budget and how well the goals were met

needs to know if the reports and dashboards will be impacted 

and need to change

(50)

© INTAN 2017

(51)

Kandungan

Punca Kuasa/Mandat

Rangka Kerja analitis Data Raya Sektor Awam (aDRSA)

Pelaksanaan analitis Data Raya Sektor Awam (aDRSA)

Kes Bisnes aDRSA

Faedah aDRSA

CSF

(52)

© INTAN 2017

Punca Kuasa Pelaksanaan DRSA

52

Mesyuarat Majlis Pelaksanaan MSC Malaysia (ICM)  Bilangan 25 (14 November 2013)

“....the Communications and Multimedia Ministry with the 

­ Prime Minister of Malaysia

The Result :

1. Ministry of Multimedia and  Communication  Malaysia will  develop  the skeleton ­ BIG DATA

2. MAMPU and MDec will collaborate to implement the  strategies

3. MDec will start initiatives

Mesyuarat Majlis Pelaksanaan MSC Malaysia (ICM)  Bilangan 26 (22 Oktober 2014)

Bersetuju supaya pelaksanaan BDA memberi tumpuan kepada 3 imperatif iaitu Kemahiran, Centre of 

Excellence (CoE) dan Data Terbuka. 

MAMPU, MDEC dan MIMOS diminta melaksanakan BDA Digital Government Lab (BDA DG­Lab) bagi melaksana keputusan mesyuarat ini.

Mesyuarat Jawatankuasa IT dan Internet Kerajaan (JITIK) Bil. 2 Tahun 2014, 7 November 2014 

bersetuju bagi strategi pelaksanaan DRSA iaitu:

1. Tadbir Urus

2. Strategi Pelaksanaan 3. Metodologi Pelaksanaan 4. Garis Panduan

(53)

© INTAN 2017 53

(54)

© INTAN 2017

Metodologi

Rangka  Kerja

Garis Panduan Data  Terbuka, Perkongsian Data, 

Klasifikasi Data

(55)

1. Transfomasi Perkhidmatan Optimasi Data Kerajaan (Goverment Data Optimisation Transformation Services (GDOTS)

* PoC: 3 bulan (1 Okt 2015 hingga 31 Disember 2015 )

* Projek: 12 bulan (dicadangkan pada April 2017 hingga Mac 2018)

2. BDA­Digital Government Open Innovation Network (BDA­GDOIN)

* 29 Jan 2015 hingga 28 Jan 2016

3. Projek Rintis Analitis Data Raya Sektor Awam (DRSA)

* 10 Mac 2015 hingga 9 Mac 2016

4. Projek Peluasan Analitis DRSA

* 23 Nov 2016 hingga 22 Nov 2017

Eksplorasi Analitis Data Raya

6

(56)

© INTAN 2017

TRANSFOMASI PERKHIDMATAN OPTIMASI DATA KERAJAAN

56

GDOTS Proof Of Concept (POC) dilaksanakan pada tahun 2015 menggunakan perkhidmatan analitis data pihak ketiga

• Kolaboratif Strategik MAMPU bersama KPDNKK, MOA, LKIM, FAMA, MOF, DOSM bagi kes bisnes Price of Goods

• Memaparkan trend harga barangan mengikut cuaca (hujan), pelaksanaan GST, musim perayaan, kenaikan harga petrol dan kenaikan harga tol

Projek GDOTS dicadangkan pada Mei 2017 hingga Mac 2018 bagi membangunkan empat (4) kes bisnes

dengan memberi fokus kepada golongan miskin bandar (urban poor)

• Menghasilkan analisis atau laporan dalam mengenal pasti punca perubahan harga

• Kolaboratif Strategik MAMPU bersama KPDNKK, MOA, LKIM, FAMA, MOF, DOSM

0.00%$

2012$ 2013$ 2014$ 2015$

%"Peningkatan/Penurunan"(Rantaian"Bekalan)"3"Selangor"

2012$ 2013$ 2014$ 2015$

%"Peningkatan/Penurunan"(Rantaian"Bekalan)"3"Kedah"

2012$ 2013$ 2014$ 2015$

%"Peningkatan/Penurunan"(Rantaian"Bekalan)"3"Pahang"

2012$ 2013$ 2014$ 2015$

%"Peningkatan/Penurunan"(Rantaian"Bekalan)"3"Johor"

Pendaratan$ Borong$ Runcit$

BIL. AKTVITI M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 M1 M2 M3 M4 1 Commercial Related

- Letter of Award - Contract Management 2 Project Team Mobilization

- Project Inception & Governance - Team Mobilization

-3 Project Implementation - Kick Off Meeting - Project Management - Development of Use Cases

- Step 1 - 3

-Mesyuarat J/K Teknikal dan Pemandu - Bayaran 2 - Step 4 - 5

-Mesyuarat J/K Teknikal dan Pemandu - Bayaran 3 - Step 6

-Mesyuarat J/K Teknikal dan Pemandu - Bayaran 4 - Step 7 - Insights Reporting

-Mesyuarat J/K Teknikal dan Pemandu - Bayaran 5 4 Project Closure and Sign-Off Mesyuarat J/K Teknikal dan Pemandu - Bayaran 1

BULAN 12 BULAN 1 BULAN 2 BULAN 3 BULAN 4 BULAN 5 BULAN 6 BULAN 7 BULAN 8 BULAN 9 BULAN 10 BULAN 11

Payment Milestone 10%

Payment Milestone 10%

Payment Milestone 40%

Payment Milestone 20%

Payment Milestone 20% Project Closure Kick-Off

LOA

7

1

3 bulan  (1 Okt 2015 hingga  31 Disember  2015 )

(57)

Meninjau pelampau islam di kalangan rakyat

Malaysia

Analitik data bagi

menganalisis dan membina Model Ekonomi Fiskal

Teknologi & Platform

Pemudah cara Pengurusan

Analisis Sentimen Kos Sara Hidup yang  diperolehi melalui Media Sosial

Mendapatkan unjuran 90  tahun taburan hujan selaras

dengan kesan limpahan di  tebing sungai dalam peta

Malaysia Membangunkan pangkalan

pengetahuan banjir

berdasarkan gabungan data  sensor dan media sosial

PROJEK BDA

­OPEN INNOVATION NETWORK

(BDA­DGOIN)

57

Dilaksanakan  secara Proof  Of Concept 

(POC) • Kolaboratif 

(58)

© INTAN 2017

PROJEK RINTIS ANALITIS DATA RAYA

SEKTOR AWAM (DRSA)

Rangka

kerja

Platform di PDSA 

dalam 1Gov*Net

1

Garis Panduan

Pembangunan Empat Analitis

(59)

• Pembangunan produk data secara

coaching oleh Syarikat dan MAMPU dengan agensi terpilih. • Mengikut metodologi DRSA

dan Data Analytic Project Lifecycle meliputi hands­on training

bagi self­development dalam pembangunan produk data/BDA • Pembangunan produk data melalui

aktiviti pengumpulan, pembersihan dan eksplorasi data, membangunkan model analisis, prediktif dan machine learning menggunakan analytics tool R Studio.

• Tempoh Pelaksanaan: 12 Bulan (23 Nov 2016 ­ 22 Nov 2017)

No. Kementerian/Agensi Business Case

1. Kementerian Kewangan Malaysia  (MOF)

Pemantauan Media Sosial Berkaitan Kementerian Kewangan

2. Kementerian Sumber Manusia (KSM) Meningkatkan Kebolehpasaran Pekerjaan Kepada Pencari Kerja

3. Suruhanjaya Perkhidmatan Awam (SPA)

Seamless Job Recruitment 4. Kementerian Pengangkutan Malaysia 

(MOT)

Menjadikan Pelabuhan Klang Lebih Kompetitif dan Efisien

5. Kementerian Pendidikan Malaysia  (MOE)

Penyelesaian Isu Keciciran Murid daripada Sistem Pendidikan Malaysia

6. Jabatan Perikanan Malaysia (DOF) Pemilihan Kawasan Akuakultur 7. Institut Penyelidikan dan Kemajuan

Pertanian Malaysia (MARDI)

Meningkatkan Produktiviti dan Kualiti Padi 8. Kementerian Tenaga, Teknologi Hijau

dan Air (KeTTHA)

Tahap Penggunaan Air Domestik Yang  Tinggi di Malaysia

9. Kementerian Perdagangan

Antarabangsa dan Industri (MITI)

Pengurusan Permasalahan Industri Pengeluaran Halal

10. Jabatan Audit Negara Penemuan Audit (Kewangan)

11. MAMPU Sentimen Analisis – Patriotism “Negaraku” 12. Bahagian Penyelidikan, JPM Sulit 19

PROJEK PELUASAN ANALITIS DATA RAYA

(60)

© INTAN 2017

Kes Bisnes Analitis Data Raya

60

Ramalan Wabak Penyakit

Ramalan dan Pencegahan Jenayah

Maklumat Pintar Kesesakan Jalan Raya

Pengesanan Penipuan Cukai

Ramalan Bencana atau Cuaca

Keselamatan Siber

Pertahanan Negara

Farmasi dan Ubat

(61)

Hala Tuju

61

Bidang fokus A : 

Mempertingkatkan penyampaian

(62)
(63)

Faedah Analitis Data Raya

63

Membuat

keputusan yang 

lebih baik

Perancangan

strategik yang 

lebih baik

Hubungan yang 

lebih baik

dengan pelanggan

Pengesanan risiko

yang lebih

berkesan

Prestasi

(64)

© INTAN 2017

4

4

Komitmen tinggi

Subject Matter Expert

(SME)

daripada setiap domain/kluster

Pengetahuan dan kemahiran dalam Sains Data

Sokongan padu pengurusan atasan agensi

Ketersediaan data

Program pengurusan perubahan

Tadbir urus yang mantap

27

(65)
(66)

© INTAN 2017

Contents

What is Open Data

Data Terbuka Sektor Awam

– Mandat

– Tadbir Urus

(67)

Definition

Publicly available data 

that can be universally 

and readily 

accessed, used, and redistributed 

free of charge

It is structured for 

usability and computability

(68)

© INTAN 2017

Definition

Data terbuka merujuk

data kerajaan yang boleh digunakan secara bebas,

boleh dikongsikan dan digunakan semula

oleh rakyat, agensi sektor awam

atau swasta untuk sebarang tujuan

Data Sharing Government: G2G, G2B, G2C

Example:

List of schools, mosques and  village clinics

(69)

Mandat

69

MESYUARAT  JAWATANKUASA  IT DAN INTERNET  KERAJAAN  (JITIK)

BIL.1 TAHUN  2014 PADA  28 MAC 2014

BERSETUJU:

Semua agensi disarankan supaya bersedia dan mengambil tindakan

mengenal pasti inisiatif

big data analytic

dan

data set

bagi

(70)
(71)
(72)

© INTAN 2017

(i) Menentukan hala tuju dan strategi data terbuka sektor awam

(ii) Memantau status pelaksanaan  data  terbuka sektor awam

(iii) Memantau tahap penggunaan data  terbuka sektor awam

(iv) Memainkan peranan sebagai

penasihat dalam membincangkan dasar dan isu­isu semasa berkaitan data 

terbuka sektor awam

Jawatankuasa Penyelarasan Data Terbuka Sektor Awam

(73)

(i) Menyediakan dan melaksanakan  pelan pelaksanaan  data terbuka  sektor awam. 

(ii) Menyediakan platform penerbitan set data terbuka yang selamat. 

(iii) Menyediakan mekanisme dan

tatacara penerbitan data terbuka oleh agensi di Portal Data Terbuka Sektor Awam. 

(iv) Mengkaji dan mengenal pasti set  data yang berpotensi. 

(v) Memberikan  khidmat nasihat  kepada agensi berhubung dengan  pelaksanaan  data terbuka. 

Pasukan Kerja Data  Terbuka Sektor

Awam

(74)

© INTAN 2017

(i) Merangka strategi dan pelan pelaksanaan data terbuka pada peringkat Kementerian/Pejabat

Setiausaha Kerajaan Negeri/ Agensi. 

(ii) Menubuhkan pasukan kerja untuk melaksanakan tugas/ aktiviti data  terbuka. 

(iii) Meluluskan set data bagi data  terbuka. 

(iv) Memantau tahap penggunaan data terbuka. 

(v) Memastikan keperluan dasar dan sasaran yang dikenal pasti dipatuhi dan tercapai. 

Jawatankuasa Penyelarasan Data Terbuka 

Kementerian/SUK/Agensi

(75)

(i) Mengkaji dan mengenal  pasti set  data. 

(ii) Mendapatkan kelulusan set data  bagi data terbuka. 

(iii) Menyediakan dan menerbitkan meta data. 

(iv) Memastikan set data yang 

diluluskan bagi data terbuka dimuat naik ke laman web agensi dan Portal  DTSA. 

(v) Mengkaji tahap penggunaan dan data terbuka. 

Pasukan Kerja Data  Terbuka 

Kementerian/SUK/Agensi

(76)

© INTAN 2017

Isu dan Cabaran

76

Pelaksanaan memerlukan

kerjasama pelbagai pihak

dari sektor awam, swasta,

komuniti dan rakyat

Isu keselamatan data

Pelaksanaan merentas

pelbagai bidang dan

kluster termasuk

perundangan, polisi,

sosial, ekonomi dan

organisasi

Ranking

Malaysia dalam

penilaian Open Data

(77)

Terima kasih

Referensi

Dokumen terkait

Klasifikasi agregat menjadi kasar, halus dan filler adalah berdasarkan ukurannya yang ditentukan menggunakan saringan. Mutu agregat mempengaruhi kekuatan dan ketahanan konkrit. Adapun

Berdasarkan hasil penelitian diperoleh kesimpulan bahwa pelaksanaan ekstrakurikuler pramuka penggalang di SD Jaranan Banguntapan Bantul dapat dilihat dari 1) perencanaan pihak

Serta diberi nomor klasifikasi pada tiap-tiap box file tersebut, agar mudah dalam penyusunan di rak dan mudah dalam temu kembali tiap naskah yang dibutuhkan;

Pelabuhan Singapura yang sudah menjadi internasional hub port mempunyai ciri-ciri antara lain pelabuhannya terhubung dengan pelabuhan di seluruh dunia yakni kurang lebih 100

efektivitasnya sama sehingga jika dilakukan analisis menggunakan tabel alternatif pada tabel 6 hasilnya adalah efektivitas biaya terapi kombinasi Haloperidol lebih baik

Tanggal Penjualan Kembali adalah tanggal-tanggal setelah Lock in Period dan suatu tanggal setiap 3 (tiga) bulan setelah tanggal terakhir Lock In Period dimana Pemegang Unit

Fungsi keanggotaan output fuzzy dibagi menjadi tujuh level dengan cara menggabungkan kombinasi banyak level fungsi keanggotaan input dengan asumsi bahwa pengaruh tiap