• Tidak ada hasil yang ditemukan

M1 - Pengenalan Analisis Data

N/A
N/A
Adinda Alifia Yumna

Academic year: 2024

Membagikan "M1 - Pengenalan Analisis Data"

Copied!
17
0
0

Teks penuh

(1)

// Materi Kelas //

M1 Pengenalan Analisis Data

Analisis data = pemeriksaan, modifikasi dan pemodelan data (intinya cara mengolah data).

Alasan harus belajar ADS - prioritas top organisasi

- inti pengambilan keputusan di perusahaan - salary tinggi dan banyak peluang pekerjaan - big data analytics ada dimanapun

DATA

Data  Informasi  Pengetahuan  Keputusan

 Perubahan

(Data + Struktur) (Informasi + Arti) (Pengetahuan + Rekomendasi)

=============================

==> Nilai

Data = minyak baru (menunjukkan pentingnya data diubah menjadi informasi)

Data terbagi menjadi 2: terstrukur (dapat diubah menjadi kolom dan baris) dan tidak terstruktur (audio, teks, gambar)

Data tidak terstruktur harus diubah dulu menjadi data terstruktur.

4 Tipe Data Analytics

|| 1. Deskriptif = melihat kondisi bisnis/karakteristik data. (komprehensif, akurasi data, dan efektif visualisasi)

|| 2. Diagnosis = melakukan analisis eksplorasi data dan memvisualisasikan dalam bentuk scatterplot. (kemampuan menemukan akar permasalahan, dan mengisolasi semua informasi membingungkan)

|| 3. Prediksi = masuk ke pemodelan regresi, forecast, dll, menghitung y jika diketahui x.

(strategi yang cukup konsisten dari waktu ke waktu, pola historis untuk memprediksi hasil tertentu, keputusan diotomatisasi menggunakan algoritma dan teknologi)

|| 4. Preskriptif = masuk ke rekomendasi, ketika respon diketahui, berapa prediktor yang diperlukan atau menghitung x, jika diketahui y.

Nilai======================>

Kompleksitas

Pertanyaan terkait analisis data:

"Data apa yang dimiliki?"

"Tujuan pengolahan data ini apa?"

"Dugaan awal dari permasalahan data ini apa?"

"Mengapa permalasahan itu dapat terjadi?"

Perbedaan korelasi dan kausal. (Matahari - Ice Cream - Kulit)

Kausal pasti berkorelasi.

Korelasi belum pasti kausal.

Kausal : ada hubungan sebab akibat antara dua variabel, dimana perubahan dalam satu variabel menyebabkan perubahan dalam variabel lain.

Korelasi 0,8 artinya ada hubungan linier yang kuat antara dua variabel.

Setiap grafik punya keterbatasan. Contoh:

Keterbatasan bar chart :

- tidak cocok untuk data dengan banyak kategori

Keterbatasan pie chart :

- hanya bisa untuk variabel univariat Keterbatasan line chart :

- cocok untuk data univariat, tidak efektif jika data tidak berurutan

Keterbatasan histogram :

- cocok untuk data univariat, tidak memberikan informasi nilai individual dalam data

Keterbatasan box plot :

- tidak memberikan informasi nilai individual Note:

 Jangan memotong angka pada sumbu y atau memainkan skala pada visualisasi grafik (agar tidak menimbulkan salah penafsiran)

 Jangan paksa publikasikan hasil analisis yang tidak logis. (Alasan: barangkali data yang digunakan aggregate, bisa dipisahkan ke ke beberapa kategori tertentu/ Kaitan dengan Simpson Paradox)

Simpson Paradox

Simpson Paradox = ketika suatu pola hubungan muncul dalam kelompok data individual ternyata berbeda arah ketika kelompok tersebut digabungkan.

Simpson Paradox terjadi ketika menggabungkan subkelompok menjadi satu kelompok, dimana menyebabkan arah dan kekuatan hubungan yang jelas antara dua variabel berubah. (ada pengaruh variabel ketiga yang memengaurhi hubungan antara sepasang variabel)

Contoh ilustrasi:

M2 Descriptive Analysis

Note: tidak digunakan untuk memprediksi tentang masa depan

Jenis data :

 Data kontinu : bisa menggunakan histogram, scatterplot, boxplot

 Data diskrit : bisa menggunakan bar chart, pie chart

Reduce variabel jika varians mendekati nol.

Level pengukuran

Pengukuran kecenderungan pusat

Nominal Modus

Ordinal Modus, Median Interval Modus, Median, Mean Rasio Modus, Median, Mean Kecenderungan

pusat Dispersi

Mean Stdev, Range

Median IQR, Range

Modus Range (jika variabel nominal), IQR dan Range (jika variabel ordinal)

Tipe korelasi dan level pengukuran

Skala Data

Nominal Ordinal Interval/Rasio

(Metrik) Nomina

l Dikotomu

s Phi (

φ

),

Cramer’s

Biserial rank correlation, Cramer’s V

Scatterplot, bar chart, error bar chart, Point bi- serial correlation (

(2)

V

r

pb

¿

,

Non- Dikotomu s

Clustered bar chart, Chi- square, Cramer’s V, Contingen cy / cross- tab tables

 recode Cramer’s V, Contingency coefficient

Classification of metric variables and application of Cramer’s V

Ordinal Scatterplot,

Clustered bar chart, Spearman’s Rho, Kendall’s Tau

 recode Ranking of metric variables and application of Rho

& Tau Interval

/Rasio (Metrik)

Scatterplot, Product moment correlation/

Korelasi Pearson

Perbedaan EDA dan CDA

EDA CDA

Tidak dimulai adanya

hipotesis Dimulai dengan

hipotesis Menghasilkan

hipotesis Pengujian hipotesis nol

Kebanyakan

menggunakan metode grafik, seperti histogram, scatter plot, boxplot

Menggunakan model statistik, seperti uji- t, uji chi-sq, analisis regresi

EDA : lebih fokus pada eksplorasi data secara umum untuk menemukan pola, tren, anomali, atau wawasan tanpa memiliki asumsi awal yang kuat.

CDA : lebih terfokus pada pengujian hipotesis yang telah dirumuskan sebelumnya.

Measure of Association

Definisi : ukuran hubungan untuk merangkum besarnya hubungan antara dua variabel, dimana beberapa ukuran rentangnya hanya 0 hingga 1, lainnya memiliki rentang -1 hingga +1.

Tipe korelasi :

Nominal vs nominal : Tabel Kontingensi, Phi/Cramer’s V, Chi-sq

Ordinal vs ordinal : Spearman’s rank / Kendall’s Tau b

Dikotomus berdasarkan interval/rasio : Point bi- serial

Interval/rasio vs interval/rasio : Product- moment/ Pearson’s r, atau Scatter plot

Scatter plot

 Menunjukkan arah hubungan (negatif, positif, tidak jelas)

 Mengetahui bentuk hubungan (linier, dan nonlinier)

 Mengetahui kekuatan hubungan (kuat, lemah)

Product-moment/ Pearson’s r

 Dua variabel harus diukur pada tingkat interval/rasio

 Perlu adanya hubungan linier antara kedua variabel

 Seharusnya tidak ada outlier yang signifikan

 R Pearson sensitif terhadap outlier

 Variabel harus berdistribusi Normal

 Harus memenuhi homoskedastisitas Rumus :

Korelasi titik bi-serial

 Salah satu dari dua variabel harus diukur pada skala yang berkesinambungan

 Variabel lain harus dikotomis

 Tidak boleh ada outlier pada variabel kontinu untuk setiap kategori variabel dikotomis

 Variabel kontinu harus berdistribusi Normal untuk setiap kategori variabel dikotomis

 Variabel kontinu harus memiliki varians sama untuk setiap kategori variabel dikotomis Korelasi Urutan Peringkat Spearman

 Kedua variabel Anda harus diukur pada skala ordinal, interval, atau rasio

 Uji ini digunakan untuk variabel ordinal atau untuk data kontinu yang gagal memenuhi asumsi yang diperlukan untuk melakukan korelasi product-moment Pearson

 Harus ada hubungan yang monoton antara kedua variabel. Hubungan monotonik terjadi ketika nilai variabel meningkat secara bersamaan, atau ketika nilai satu variabel meningkat, nilai variabel lainnya menurun.

 Uji alternatif yang mungkin untuk korelasi Spearman adalah tau-bor Kendall Goodman dan gamma Kruskal.

(3)

Uji Chi-Kuadrat untuk Asosiasi

 Kedua variabel harus diukur pada tingkat ordinal atau nominal

 Kedua variabel harus terdiri dari dua atau lebih kelompok kategorikal dan independen.

 Label klasifikasi silang digunakan untuk mendapatkan nilai chi kuadrat statistik yang memberikan informasi ada atau tidaknya hubungan statistik antar variabel pada tabel klasifikasi silang

Kelemahan Chi-sq

- Statistik Chi-sq tidak mungkin menentukan sejauh mana satu variabel berubah, karena variabel lainnya berubah.

- Nilai statistik chi-sq dapat berubah tergantung pada jumlah sel dalam label.

- Ukuran statistik chi-sq tidak memberikan panduan yang dapat diandalkan mengenai kekuatan hubungan statistik antara kedua variabel.

Note : ukuran sampel sama, tetapi nilai chi-sq berbeda

Ukuran asosiasi yang menyesuaikan Chi-sq 1. Phi : menyesuaikan dengan ukuran sampel

ϕ=

χn2

2. Koefisien kontingensi

Ketika tidak ada hubungan antara 2 variabel, C = 0.

Koefisien kontingensi tidak dapat melebihi C

= 1.

C = √ n+ χ

2

χ

2

=1 +ϕ ϕ

2 2

3. Cramer’s V

V

t = jumlah baris dikurangi satu atau jumlah

= √ ϕ t

2

=nt χ

2

kolom dikurangi satu (yang lebih kecil) t = r-1 atau c-1

r = jumlah baris, c = jumlah kolom

jika tabel hanya memiliki 2 baris dan 2 kolom, gunakan rumus berikut.

V=

ϕt2=

ϕ12=ϕ

Penggunaann Grafik

Tujuan Grafik yang

digunakan Memeriksa hubungan

antar pasangan variabel

Scatter plot, Matrix plot, Marginal plot

Memeriksa dan

membandingkan distribusi

Histogram, Dot plot, Steam and Leaf plot, Probability plot, Empirical CDF,

Boxplot Membandingkan

ringkasan atau nilai individual variabel

Boxplot, Interval plot, Individual value plot, Bar chart, Pie chart Melakukan plot time

series data sepanjang waktu

Time series plot, Area graph, Scatterplot Memeriksa hubungan

tiga variabel

Contour plot, 3D Scatterplot, 3D Surface plot

Measures of central tendency

• Mean

• Sum Trimmed mean (TrMean)

• Median

Measures of position

• First quartile (Q1)

• Third quartile (Q3)

• Percent Cumulative percent (CumPct) Sample size

• N nonmissing (N)

• N missing (N*)

• N total (Total Count)

• Cumulative N (CumN) Measures of dispersion

• Standard deviation (StDev)

• Standard error of the mean (SE Mean)

• Variance

• Coefficient of variation (CoefVar)

• Range

• Interquartile range (IQR)

• Sum of squares Distribution shape

• Skewness

• Kurtosis

Dalam distribusi leptokurtik, ekornya lebih tebal dan puncaknya lebih tajam daripada distribusi normal.

Distribusi mesokurtik adalah distribusi yang mirip dengan distribusi normal.

Dalam distribusi platikurtik, ekor distribusi lebih tipis dan puncaknya lebih datar daripada distribusi normal.

Asosiasi

Bagaimana menilai hubungan antar variabel dengan menggunakan metode analisis bivariat.

Pemeriksaan dan Pengujian Data

1. Kesimetrian dan kehomogenan varians, dapat melalui :

(4)

 Steam and leaf, jika bentuknya cenderung hampir sama, varians cenderung homogen

 Box plot, jika besar kotak cenderung hampir sama, maka varians cenderung homogen

 Uji Bartlett, digunakan jika data berdistribusi Normal, jika uji 2 populasi gunakan F-test

 Uji Levene, tidak butuh syarat kenormalan 2. Pengujian kenormalan, dapat melalui :

 Histogram

 Normal Probability Plot

 Uji Goodness of Fit, ukuran data besar, ada di Statgraph

 Uji Kolmogorov-Smirnov, jika data kontinu

 Uji Anderson-Darling, di MINITAB

 Uji Saphiro Wilk (Ryan-Joiner) 3. Pengujian keacakan, dapat melalui :

 ACF

 Run Test

Pengujian Parameter

Pengujian Parameter k Populasi

Dikelompokkan berdasarkan asumsi kenormalan, kehomogenan varians dan keterkaitan antar populasi.

M3 Inference Analysis Supervised = Dependensi

 Ada target

 Ada variabel respon

Unsupervised = Interdependensi

 Tidak ada target

 Tidak ada variabel respon

Conjoint Analysis: contohnya untuk menentukan preferensi produk yang dijual paling banyak 1. Menentukan variabel

2. Menentukan level/kategori 3. Menentukan skala data

Asumsi di regresi logistik lebih ringan dari asumsi diskriminan.

Regresi X Y Kontinu

ANOVA X Kategori Y Kontinu Logistik Y Kategori

Diskriminan Y Kategori

Analisis Cluster mengelompokkan objek.

Analisis Faktor mengelompokkan variabel.

Analisis Multidimensional Scaling (MDS) menunjukkan hubungan antar sejumlah objek dalam ruangan multidimensional didasarkan pada penilaian responden mengenai kemiripan/

kedekatan objek-objek tersebut.

Analisis Cluster: pengelompokkan objek berdasarkan variabel

 Ukuran sampel cukup dan besar

 Outlier dihindari

 Multikolinearitas dihindari

Kesalahan-kesalahan dalam clustering

 Salah memilih jumlah cluster (k), bisa terlalu sedikit/terlalu banyak

 Dimensi data tinggi, jadi pilih 2 dimensi saja dan coba untuk semua kemungkinan kombinasi variabel

 Sebelum melakukan clustering, tidak melakukan EDA

 Data irregular (unequal variance, anistropicly distributed blobs/ data yang terbentuk dalam pola yang lebih elips atau tidak beraturan daripada sirkular, irregular shaped data) KMeans hanya untuk data cluster yang melingkar.

Overfit : jumlah cluster terlalu banyak, sehingga cluster yang dihasilkan mungkin tidak memiliki makna atau representasi yang kuat dari pola yang sebenarnya dalam data.

Underfit : jumlah cluster terlalu kecil, sehingga tidak dapat menangkap pola yang ada.

Data preparation

 Data cleaning and complete

 Melakukan scaling dan normalization

 Apabila ada menghitung jarak euclid, maka harus normalisasi.

 Feature selection : mereduce noise dan meningkatkan kualitas dari hasil kluster Cara memilih jumlah kluster yang benar - Metode siku/Elbow method menggunakan

Within-Cluster Sum Of Squares (WSS)

- Analisis Silhouette, semakin tinggi semakin baik, cari elbow juga.

- Gap statistic

- Hierarchical clustering dendogram

Interpretasi dan Visualisasi Hasil Analisis Cluster

 Cluster profiles and characteristics : Gunakan radar chart.

 Dimensionality reduction techniquesc : Scatterplot, heatmaps, dendograms.

 Selection Bias pada Cluster Analysis - nonrandom sampling

- missing data

- penggabungan cluster yang salah

 Index kebaikan cluster - Davies-Bouldin Index - Calinksi Harabaz Index M4 Diagnostic Analysis

= Descriptive (Descriptive Statistics, Clustering)

= Diagnostic (Sensitivity Analysis, Design of Experiment)

Definisi Diagnostic Analytics

- Hanya menggunakan data history, tidak predict/forecast

- Tujuan: mengidentifikasi dan menjelaskan mengapa itu terjadi, apa penyebabnya dalam diagnostic, melihat pola-pola, tren atau anomali.

Kapan dipakai?

 ada perubahan pola dalam data.

 mengidentifikasi kelebihan dan kelemahan suatu performa data.

(5)

 memahami perilaku customer.

 meningkatkan efisiensi operasional

 analisis risiko dan fraud detection Keuntungan

 menguji hipotesis

 mengidentifikasi outlier dan anomali

 mengurangi kesalahan Langkah uji hipotesis 1. Menentukan Hipotesis

2. Menentukan taraf signifikansi α = 5%

3. Menentukan statistik uji 4. Menentukan daerah kritis 5. Menentukan keputusan 6. Menarik kesimpulan

α adalah probabilitas kesalahan tipe I, dimana menolak H0, padahal H0 benar.

Kesalahan tipe II : gagal tolak H0, padahal H0

salah.

Memilih nilai α tergantung keadaan dan peneliti.

 Jika kesalahan tipe I lebih berbahaya, maka α dikecilkan.

 Jika tipe II yang lebih berbahaya, maka α diperbesar.

Tidak boleh mengatakan "terima H0", tetapi gunakan "gagal tolak H0", karena pada uji hipotesis peneliti hanya membuktikan bahwa H1

benar, berarti ketika tidak berhasil membuktikan, peneliti hanya gagal membuktikan bahwa H0 salah, tapi tidak mengatakan bahwa H0 benar. Contoh case:

kasus dakwaan pengacara.

Kesalahan dalam uji hipotesis

 Kesalahan dalam mendefinisikan hipotesis null dan hipotesis alternatif dengan jelas

 Memilih uji yang salah atau tingkat signifikansi yang salah

 Salah menafsirkan nilai p atau interval kepercayaan

 Mengabaikan ukuran efek atau signifikansi praktis

 Tidak memeriksa asumsi atau kondisi dari analisis Anda

 Tidak mengkomunikasikan hasil Anda dengan jelas atau etis

// Materi Praktikum//

Week 1 Basic Step

Import Data  Data Pre-Processing  Visualization or Analysis

Data Pre-Processing

Cek data  Handle Missing Value  Handle Duplicate Data  Deteksi outlier

Library visualization di Python, seperti seaborn, plotly, matplotlib, pandas, bokeh

matplotlib

seaborn

ggplot

bubble chart : memvisualisasikan data dalam tiga atau empat dimensi.

dimensi 1 dan 2 : sumbu kartersian (X,Y) dimensi 3 : ukuran lingkaran

dimensi 4 : gradien warna (heatmap)

heatmap : untuk menginterpretasikan fenomena korelasi dari sejumlah variabel yang diukur.

clustered heatmap : memvisualisasikan data

dalam bentuk matriks dengan

pengelompokan atau pengurutan yang disusun berdasarkan kesamaan atau hubungan antara baris dan kolomnya.

(6)

Week 2

Supervised : mengetahui secara pasti jumlah label (kategori) yang sebenarnya

Unsupervised : tidak mengetahui kategori sebenarnya, bahkan jumlah kategori/grupnya Clustering

Definisi : teknik pengelompokan berdasarkan kesamaan karakteristik data (yang dikelompokkan objeknya bukan variabel)

Konsep algoritma dari clustering adalah membagi populasi ke dalam grup yang berbeda, sehingga setiap titik data serupa dengan titik data dalam grup yang sama dan tidak serupa dengan poin data di grup lain. Menetapkan sub- kelompok berdasarkan kesamaan dan ketidaksamaan.

Ilustrasi :

- Identifikasi potential customer untuk melakukan penjualan produk

- Implementasi clustering untuk membagi customer ke dalam beberapa grup

- Menjual produk berdasarkan

karakteristik customer

K-means clustering adalah algoritma iteratif yang mempartisi sekelompok data ke dalam beberapa sub kelompok berdasarkan nilai rata- rata terdekat.

Ilustrasinya, bahwa jika diberi sekelompok objek, k-means mempartisi kelompok itu menjadi beberapa sub-kelompok. Sub-kelompok dibentuk berdasarkan kemiripan dan jarak setiap titik data dalam sub-kelompok tersebut dengan rata-rata centroidnya.

Tujuan dari k-means clustering adalah untuk meminimalkan jarak Euclidean yang dimiliki setiap titik dari pusat cluster. Ini dikenal sebagai varian intra-cluster.

dimana : titik berwarna biru adalah rata-rata dalam setiap sub-group

K-means terbatas pada batas cluster linier.

Asumsi model dasar k-means (titik akan lebih dekat dengan pusat cluster sendiri daripada yang lain) berarti bahwa algoritma akan sering tidak efektif jika cluster memiliki geometri yang rumit.

Batas antara k-means cluster akan selalu linier, yang berarti akan gagal untuk batasan yang lebih rumit (boundaries).

Langkah-langkah Kmeans

1. Memilih indikator, contoh :

Indikator yang digunakan untuk melakukan pengelompokan status gizi balita berjumlah 2, yaitu tinggi badan balita (TB) dan berat badan balita (BB).

2. Menentukan nilai K

Peneliti dapat menentukan nilai sendiri atau dapat menggunakan elbow dan silhoutte score 3. Membuat cluster, dengan cara :

a. Menentukan centroid v´ij= 1

Ni

k=0 Ni

xkj

b. Menghitung jarak antara titik centroid dengan titik tiap objek

D

e

= √ ( x

i

s

i

)

2

+ ( y

i

t

i

)

2

Clustering Performance Evaluation Metrics Silhouette Coefficient (untuk evaluasi setelah analisis clustering)

Dalam menentukan k yang optimal, selain menggunakan metode elbow, metode lain yang dapat digunakan adalah memakai silhouette analysis. Metode ini digunakan untuk menentukan derajat pemisah antar cluster.

Interval dari koefisien ini berada dalam range [-1, 1] dengan ketentuan sebagai berikut:

0 : Jarak cluster terlalu dekat dengan tetangga 1 : Optimal cluster

-1 : Cluster tidak sesuai

Hal yang Harus Diperhatikan Saat Menggunakan K-Means

1. Hasil optimal secara keseluruhan mungkin tidak tercapai

2. Jumlah cluster harus dipilih terlebih dahulu 3. KMeans terbatas pada cluster linier

4. KMeans bisa lambat untuk sejumlah besar sampel

Hierarchial Clustering Step

1. Pilih ukuran jarak/kemiripan dan penskalaan 2. Pilih metode penghubung (linkage)

 Single Linkage (Penghubung Tunggal):

Metode ini menggabungkan dua cluster yang memiliki dua titik yang paling dekat satu sama lain. Ini cenderung menghasilkan cluster dengan bentuk yang panjang dan berliku.

 Complete Linkage (Penghubung Lengkap):

Metode ini menggabungkan dua cluster yang memiliki dua titik yang paling jauh satu sama lain. Ini cenderung menghasilkan cluster dengan batas yang lebih jelas dan kompak.

 Average Linkage (Penghubung Rata-rata):

Metode ini menggabungkan dua cluster berdasarkan rata-rata jarak antara semua

(7)

pasangan titik dalam kedua cluster. Ini cenderung menghasilkan cluster yang lebih seimbang dalam ukuran.

 Ward's Linkage (Penghubung Ward):

Metode ini menggabungkan dua cluster dengan meminimalkan peningkatan dalam variansi (sum of squares) dalam cluster yang dihasilkan dari penggabungan. Ini cenderung menghasilkan cluster dengan varian yang seragam.

3. Setiap dari n observasi diperlakukan sebagai satu kelompok pada awalnya. Kelompok- kelompok yang paling mirip satu sama lain membentuk satu kelompok, sehingga setelah iterasi pertama, terdapat n-1 kelompok.

Algoritma ini berlanjut secara iteratif hingga semua observasi termasuk dalam satu kelompok, yang direpresentasikan dalam dendrogram.

4. Tentukan jumlah kelompok (cluster).

Kriteria Terbaik untuk Mengevaluasi Clustering

 Pseudo-f : Semakin besar nilai pseudo-F, semakin baik hasil pengelompokan (jumlah cluster).

 ICD Rate : Semakin kecil nilai Tingkat ICD (Index Davies-Bouldin) maka semakin baik hasil pengelompokan (metodenya).

 Visual representation

(dendogram/scatterplot)

Selanjutnya dapat dilakukan Profiling.

Week 3 : Uji Hipotesis

(8)
(9)
(10)
(11)
(12)
(13)
(14)
(15)
(16)
(17)

Referensi

Dokumen terkait