// Materi Kelas //
M1 Pengenalan Analisis Data
Analisis data = pemeriksaan, modifikasi dan pemodelan data (intinya cara mengolah data).
Alasan harus belajar ADS - prioritas top organisasi
- inti pengambilan keputusan di perusahaan - salary tinggi dan banyak peluang pekerjaan - big data analytics ada dimanapun
DATA
Data Informasi Pengetahuan Keputusan
Perubahan
(Data + Struktur) (Informasi + Arti) (Pengetahuan + Rekomendasi)
=============================
==> Nilai
Data = minyak baru (menunjukkan pentingnya data diubah menjadi informasi)
Data terbagi menjadi 2: terstrukur (dapat diubah menjadi kolom dan baris) dan tidak terstruktur (audio, teks, gambar)
Data tidak terstruktur harus diubah dulu menjadi data terstruktur.
4 Tipe Data Analytics
|| 1. Deskriptif = melihat kondisi bisnis/karakteristik data. (komprehensif, akurasi data, dan efektif visualisasi)
|| 2. Diagnosis = melakukan analisis eksplorasi data dan memvisualisasikan dalam bentuk scatterplot. (kemampuan menemukan akar permasalahan, dan mengisolasi semua informasi membingungkan)
|| 3. Prediksi = masuk ke pemodelan regresi, forecast, dll, menghitung y jika diketahui x.
(strategi yang cukup konsisten dari waktu ke waktu, pola historis untuk memprediksi hasil tertentu, keputusan diotomatisasi menggunakan algoritma dan teknologi)
|| 4. Preskriptif = masuk ke rekomendasi, ketika respon diketahui, berapa prediktor yang diperlukan atau menghitung x, jika diketahui y.
Nilai======================>
Kompleksitas
Pertanyaan terkait analisis data:
"Data apa yang dimiliki?"
"Tujuan pengolahan data ini apa?"
"Dugaan awal dari permasalahan data ini apa?"
"Mengapa permalasahan itu dapat terjadi?"
Perbedaan korelasi dan kausal. (Matahari - Ice Cream - Kulit)
Kausal pasti berkorelasi.
Korelasi belum pasti kausal.
Kausal : ada hubungan sebab akibat antara dua variabel, dimana perubahan dalam satu variabel menyebabkan perubahan dalam variabel lain.
Korelasi 0,8 artinya ada hubungan linier yang kuat antara dua variabel.
Setiap grafik punya keterbatasan. Contoh:
Keterbatasan bar chart :
- tidak cocok untuk data dengan banyak kategori
Keterbatasan pie chart :
- hanya bisa untuk variabel univariat Keterbatasan line chart :
- cocok untuk data univariat, tidak efektif jika data tidak berurutan
Keterbatasan histogram :
- cocok untuk data univariat, tidak memberikan informasi nilai individual dalam data
Keterbatasan box plot :
- tidak memberikan informasi nilai individual Note:
Jangan memotong angka pada sumbu y atau memainkan skala pada visualisasi grafik (agar tidak menimbulkan salah penafsiran)
Jangan paksa publikasikan hasil analisis yang tidak logis. (Alasan: barangkali data yang digunakan aggregate, bisa dipisahkan ke ke beberapa kategori tertentu/ Kaitan dengan Simpson Paradox)
Simpson Paradox
Simpson Paradox = ketika suatu pola hubungan muncul dalam kelompok data individual ternyata berbeda arah ketika kelompok tersebut digabungkan.
Simpson Paradox terjadi ketika menggabungkan subkelompok menjadi satu kelompok, dimana menyebabkan arah dan kekuatan hubungan yang jelas antara dua variabel berubah. (ada pengaruh variabel ketiga yang memengaurhi hubungan antara sepasang variabel)
Contoh ilustrasi:
M2 Descriptive Analysis
Note: tidak digunakan untuk memprediksi tentang masa depan
Jenis data :
Data kontinu : bisa menggunakan histogram, scatterplot, boxplot
Data diskrit : bisa menggunakan bar chart, pie chart
Reduce variabel jika varians mendekati nol.
Level pengukuran
Pengukuran kecenderungan pusat
Nominal Modus
Ordinal Modus, Median Interval Modus, Median, Mean Rasio Modus, Median, Mean Kecenderungan
pusat Dispersi
Mean Stdev, Range
Median IQR, Range
Modus Range (jika variabel nominal), IQR dan Range (jika variabel ordinal)
Tipe korelasi dan level pengukuran
Skala Data
Nominal Ordinal Interval/Rasio
(Metrik) Nomina
l Dikotomu
s Phi (
φ
),Cramer’s
Biserial rank correlation, Cramer’s V
Scatterplot, bar chart, error bar chart, Point bi- serial correlation (
V
r
pb¿
,Non- Dikotomu s
Clustered bar chart, Chi- square, Cramer’s V, Contingen cy / cross- tab tables
recode Cramer’s V, Contingency coefficient
Classification of metric variables and application of Cramer’s V
Ordinal Scatterplot,
Clustered bar chart, Spearman’s Rho, Kendall’s Tau
recode Ranking of metric variables and application of Rho
& Tau Interval
/Rasio (Metrik)
Scatterplot, Product moment correlation/
Korelasi Pearson
Perbedaan EDA dan CDA
EDA CDA
Tidak dimulai adanya
hipotesis Dimulai dengan
hipotesis Menghasilkan
hipotesis Pengujian hipotesis nol
Kebanyakan
menggunakan metode grafik, seperti histogram, scatter plot, boxplot
Menggunakan model statistik, seperti uji- t, uji chi-sq, analisis regresi
EDA : lebih fokus pada eksplorasi data secara umum untuk menemukan pola, tren, anomali, atau wawasan tanpa memiliki asumsi awal yang kuat.
CDA : lebih terfokus pada pengujian hipotesis yang telah dirumuskan sebelumnya.
Measure of Association
Definisi : ukuran hubungan untuk merangkum besarnya hubungan antara dua variabel, dimana beberapa ukuran rentangnya hanya 0 hingga 1, lainnya memiliki rentang -1 hingga +1.
Tipe korelasi :
Nominal vs nominal : Tabel Kontingensi, Phi/Cramer’s V, Chi-sq
Ordinal vs ordinal : Spearman’s rank / Kendall’s Tau b
Dikotomus berdasarkan interval/rasio : Point bi- serial
Interval/rasio vs interval/rasio : Product- moment/ Pearson’s r, atau Scatter plot
Scatter plot
Menunjukkan arah hubungan (negatif, positif, tidak jelas)
Mengetahui bentuk hubungan (linier, dan nonlinier)
Mengetahui kekuatan hubungan (kuat, lemah)
Product-moment/ Pearson’s r
Dua variabel harus diukur pada tingkat interval/rasio
Perlu adanya hubungan linier antara kedua variabel
Seharusnya tidak ada outlier yang signifikan
R Pearson sensitif terhadap outlier
Variabel harus berdistribusi Normal
Harus memenuhi homoskedastisitas Rumus :
Korelasi titik bi-serial
Salah satu dari dua variabel harus diukur pada skala yang berkesinambungan
Variabel lain harus dikotomis
Tidak boleh ada outlier pada variabel kontinu untuk setiap kategori variabel dikotomis
Variabel kontinu harus berdistribusi Normal untuk setiap kategori variabel dikotomis
Variabel kontinu harus memiliki varians sama untuk setiap kategori variabel dikotomis Korelasi Urutan Peringkat Spearman
Kedua variabel Anda harus diukur pada skala ordinal, interval, atau rasio
Uji ini digunakan untuk variabel ordinal atau untuk data kontinu yang gagal memenuhi asumsi yang diperlukan untuk melakukan korelasi product-moment Pearson
Harus ada hubungan yang monoton antara kedua variabel. Hubungan monotonik terjadi ketika nilai variabel meningkat secara bersamaan, atau ketika nilai satu variabel meningkat, nilai variabel lainnya menurun.
Uji alternatif yang mungkin untuk korelasi Spearman adalah tau-bor Kendall Goodman dan gamma Kruskal.
Uji Chi-Kuadrat untuk Asosiasi
Kedua variabel harus diukur pada tingkat ordinal atau nominal
Kedua variabel harus terdiri dari dua atau lebih kelompok kategorikal dan independen.
Label klasifikasi silang digunakan untuk mendapatkan nilai chi kuadrat statistik yang memberikan informasi ada atau tidaknya hubungan statistik antar variabel pada tabel klasifikasi silang
Kelemahan Chi-sq
- Statistik Chi-sq tidak mungkin menentukan sejauh mana satu variabel berubah, karena variabel lainnya berubah.
- Nilai statistik chi-sq dapat berubah tergantung pada jumlah sel dalam label.
- Ukuran statistik chi-sq tidak memberikan panduan yang dapat diandalkan mengenai kekuatan hubungan statistik antara kedua variabel.
Note : ukuran sampel sama, tetapi nilai chi-sq berbeda
Ukuran asosiasi yang menyesuaikan Chi-sq 1. Phi : menyesuaikan dengan ukuran sampel
ϕ=
√
χn22. Koefisien kontingensi
Ketika tidak ada hubungan antara 2 variabel, C = 0.
Koefisien kontingensi tidak dapat melebihi C
= 1.
C = √ n+ χ
2χ
2= √ 1 +ϕ ϕ
2 23. Cramer’s V
V
t = jumlah baris dikurangi satu atau jumlah= √ ϕ t
2= √ nt χ
2kolom dikurangi satu (yang lebih kecil) t = r-1 atau c-1
r = jumlah baris, c = jumlah kolom
jika tabel hanya memiliki 2 baris dan 2 kolom, gunakan rumus berikut.
V=
√
ϕt2=√
ϕ12=ϕPenggunaann Grafik
Tujuan Grafik yang
digunakan Memeriksa hubungan
antar pasangan variabel
Scatter plot, Matrix plot, Marginal plot
Memeriksa dan
membandingkan distribusi
Histogram, Dot plot, Steam and Leaf plot, Probability plot, Empirical CDF,
Boxplot Membandingkan
ringkasan atau nilai individual variabel
Boxplot, Interval plot, Individual value plot, Bar chart, Pie chart Melakukan plot time
series data sepanjang waktu
Time series plot, Area graph, Scatterplot Memeriksa hubungan
tiga variabel
Contour plot, 3D Scatterplot, 3D Surface plot
Measures of central tendency
• Mean
• Sum Trimmed mean (TrMean)
• Median
Measures of position
• First quartile (Q1)
• Third quartile (Q3)
• Percent Cumulative percent (CumPct) Sample size
• N nonmissing (N)
• N missing (N*)
• N total (Total Count)
• Cumulative N (CumN) Measures of dispersion
• Standard deviation (StDev)
• Standard error of the mean (SE Mean)
• Variance
• Coefficient of variation (CoefVar)
• Range
• Interquartile range (IQR)
• Sum of squares Distribution shape
• Skewness
• Kurtosis
Dalam distribusi leptokurtik, ekornya lebih tebal dan puncaknya lebih tajam daripada distribusi normal.
Distribusi mesokurtik adalah distribusi yang mirip dengan distribusi normal.
Dalam distribusi platikurtik, ekor distribusi lebih tipis dan puncaknya lebih datar daripada distribusi normal.
Asosiasi
Bagaimana menilai hubungan antar variabel dengan menggunakan metode analisis bivariat.
Pemeriksaan dan Pengujian Data
1. Kesimetrian dan kehomogenan varians, dapat melalui :
Steam and leaf, jika bentuknya cenderung hampir sama, varians cenderung homogen
Box plot, jika besar kotak cenderung hampir sama, maka varians cenderung homogen
Uji Bartlett, digunakan jika data berdistribusi Normal, jika uji 2 populasi gunakan F-test
Uji Levene, tidak butuh syarat kenormalan 2. Pengujian kenormalan, dapat melalui :
Histogram
Normal Probability Plot
Uji Goodness of Fit, ukuran data besar, ada di Statgraph
Uji Kolmogorov-Smirnov, jika data kontinu
Uji Anderson-Darling, di MINITAB
Uji Saphiro Wilk (Ryan-Joiner) 3. Pengujian keacakan, dapat melalui :
ACF
Run Test
Pengujian Parameter
Pengujian Parameter k Populasi
Dikelompokkan berdasarkan asumsi kenormalan, kehomogenan varians dan keterkaitan antar populasi.
M3 Inference Analysis Supervised = Dependensi
Ada target
Ada variabel respon
Unsupervised = Interdependensi
Tidak ada target
Tidak ada variabel respon
Conjoint Analysis: contohnya untuk menentukan preferensi produk yang dijual paling banyak 1. Menentukan variabel
2. Menentukan level/kategori 3. Menentukan skala data
Asumsi di regresi logistik lebih ringan dari asumsi diskriminan.
Regresi X Y Kontinu
ANOVA X Kategori Y Kontinu Logistik Y Kategori
Diskriminan Y Kategori
Analisis Cluster mengelompokkan objek.
Analisis Faktor mengelompokkan variabel.
Analisis Multidimensional Scaling (MDS) menunjukkan hubungan antar sejumlah objek dalam ruangan multidimensional didasarkan pada penilaian responden mengenai kemiripan/
kedekatan objek-objek tersebut.
Analisis Cluster: pengelompokkan objek berdasarkan variabel
Ukuran sampel cukup dan besar
Outlier dihindari
Multikolinearitas dihindari
Kesalahan-kesalahan dalam clustering
Salah memilih jumlah cluster (k), bisa terlalu sedikit/terlalu banyak
Dimensi data tinggi, jadi pilih 2 dimensi saja dan coba untuk semua kemungkinan kombinasi variabel
Sebelum melakukan clustering, tidak melakukan EDA
Data irregular (unequal variance, anistropicly distributed blobs/ data yang terbentuk dalam pola yang lebih elips atau tidak beraturan daripada sirkular, irregular shaped data) KMeans hanya untuk data cluster yang melingkar.
Overfit : jumlah cluster terlalu banyak, sehingga cluster yang dihasilkan mungkin tidak memiliki makna atau representasi yang kuat dari pola yang sebenarnya dalam data.
Underfit : jumlah cluster terlalu kecil, sehingga tidak dapat menangkap pola yang ada.
Data preparation
Data cleaning and complete
Melakukan scaling dan normalization
Apabila ada menghitung jarak euclid, maka harus normalisasi.
Feature selection : mereduce noise dan meningkatkan kualitas dari hasil kluster Cara memilih jumlah kluster yang benar - Metode siku/Elbow method menggunakan
Within-Cluster Sum Of Squares (WSS)
- Analisis Silhouette, semakin tinggi semakin baik, cari elbow juga.
- Gap statistic
- Hierarchical clustering dendogram
Interpretasi dan Visualisasi Hasil Analisis Cluster
Cluster profiles and characteristics : Gunakan radar chart.
Dimensionality reduction techniquesc : Scatterplot, heatmaps, dendograms.
Selection Bias pada Cluster Analysis - nonrandom sampling
- missing data
- penggabungan cluster yang salah
Index kebaikan cluster - Davies-Bouldin Index - Calinksi Harabaz Index M4 Diagnostic Analysis
= Descriptive (Descriptive Statistics, Clustering)
= Diagnostic (Sensitivity Analysis, Design of Experiment)
Definisi Diagnostic Analytics
- Hanya menggunakan data history, tidak predict/forecast
- Tujuan: mengidentifikasi dan menjelaskan mengapa itu terjadi, apa penyebabnya dalam diagnostic, melihat pola-pola, tren atau anomali.
Kapan dipakai?
ada perubahan pola dalam data.
mengidentifikasi kelebihan dan kelemahan suatu performa data.
memahami perilaku customer.
meningkatkan efisiensi operasional
analisis risiko dan fraud detection Keuntungan
menguji hipotesis
mengidentifikasi outlier dan anomali
mengurangi kesalahan Langkah uji hipotesis 1. Menentukan Hipotesis
2. Menentukan taraf signifikansi α = 5%
3. Menentukan statistik uji 4. Menentukan daerah kritis 5. Menentukan keputusan 6. Menarik kesimpulan
α adalah probabilitas kesalahan tipe I, dimana menolak H0, padahal H0 benar.
Kesalahan tipe II : gagal tolak H0, padahal H0
salah.
Memilih nilai α tergantung keadaan dan peneliti.
Jika kesalahan tipe I lebih berbahaya, maka α dikecilkan.
Jika tipe II yang lebih berbahaya, maka α diperbesar.
Tidak boleh mengatakan "terima H0", tetapi gunakan "gagal tolak H0", karena pada uji hipotesis peneliti hanya membuktikan bahwa H1
benar, berarti ketika tidak berhasil membuktikan, peneliti hanya gagal membuktikan bahwa H0 salah, tapi tidak mengatakan bahwa H0 benar. Contoh case:
kasus dakwaan pengacara.
Kesalahan dalam uji hipotesis
Kesalahan dalam mendefinisikan hipotesis null dan hipotesis alternatif dengan jelas
Memilih uji yang salah atau tingkat signifikansi yang salah
Salah menafsirkan nilai p atau interval kepercayaan
Mengabaikan ukuran efek atau signifikansi praktis
Tidak memeriksa asumsi atau kondisi dari analisis Anda
Tidak mengkomunikasikan hasil Anda dengan jelas atau etis
// Materi Praktikum//
Week 1 Basic Step
Import Data Data Pre-Processing Visualization or Analysis
Data Pre-Processing
Cek data Handle Missing Value Handle Duplicate Data Deteksi outlier
Library visualization di Python, seperti seaborn, plotly, matplotlib, pandas, bokeh
matplotlib
seaborn
ggplot
bubble chart : memvisualisasikan data dalam tiga atau empat dimensi.
dimensi 1 dan 2 : sumbu kartersian (X,Y) dimensi 3 : ukuran lingkaran
dimensi 4 : gradien warna (heatmap)
heatmap : untuk menginterpretasikan fenomena korelasi dari sejumlah variabel yang diukur.
clustered heatmap : memvisualisasikan data
dalam bentuk matriks dengan
pengelompokan atau pengurutan yang disusun berdasarkan kesamaan atau hubungan antara baris dan kolomnya.
Week 2
Supervised : mengetahui secara pasti jumlah label (kategori) yang sebenarnya
Unsupervised : tidak mengetahui kategori sebenarnya, bahkan jumlah kategori/grupnya Clustering
Definisi : teknik pengelompokan berdasarkan kesamaan karakteristik data (yang dikelompokkan objeknya bukan variabel)
Konsep algoritma dari clustering adalah membagi populasi ke dalam grup yang berbeda, sehingga setiap titik data serupa dengan titik data dalam grup yang sama dan tidak serupa dengan poin data di grup lain. Menetapkan sub- kelompok berdasarkan kesamaan dan ketidaksamaan.
Ilustrasi :
- Identifikasi potential customer untuk melakukan penjualan produk
- Implementasi clustering untuk membagi customer ke dalam beberapa grup
- Menjual produk berdasarkan
karakteristik customer
K-means clustering adalah algoritma iteratif yang mempartisi sekelompok data ke dalam beberapa sub kelompok berdasarkan nilai rata- rata terdekat.
Ilustrasinya, bahwa jika diberi sekelompok objek, k-means mempartisi kelompok itu menjadi beberapa sub-kelompok. Sub-kelompok dibentuk berdasarkan kemiripan dan jarak setiap titik data dalam sub-kelompok tersebut dengan rata-rata centroidnya.
Tujuan dari k-means clustering adalah untuk meminimalkan jarak Euclidean yang dimiliki setiap titik dari pusat cluster. Ini dikenal sebagai varian intra-cluster.
dimana : titik berwarna biru adalah rata-rata dalam setiap sub-group
K-means terbatas pada batas cluster linier.
Asumsi model dasar k-means (titik akan lebih dekat dengan pusat cluster sendiri daripada yang lain) berarti bahwa algoritma akan sering tidak efektif jika cluster memiliki geometri yang rumit.
Batas antara k-means cluster akan selalu linier, yang berarti akan gagal untuk batasan yang lebih rumit (boundaries).
Langkah-langkah Kmeans
1. Memilih indikator, contoh :
Indikator yang digunakan untuk melakukan pengelompokan status gizi balita berjumlah 2, yaitu tinggi badan balita (TB) dan berat badan balita (BB).
2. Menentukan nilai K
Peneliti dapat menentukan nilai sendiri atau dapat menggunakan elbow dan silhoutte score 3. Membuat cluster, dengan cara :
a. Menentukan centroid v´ij= 1
Ni
∑
k=0 Ni
xkj
b. Menghitung jarak antara titik centroid dengan titik tiap objek
D
e= √ ( x
i−s
i)
2+ ( y
i−t
i)
2Clustering Performance Evaluation Metrics Silhouette Coefficient (untuk evaluasi setelah analisis clustering)
Dalam menentukan k yang optimal, selain menggunakan metode elbow, metode lain yang dapat digunakan adalah memakai silhouette analysis. Metode ini digunakan untuk menentukan derajat pemisah antar cluster.
Interval dari koefisien ini berada dalam range [-1, 1] dengan ketentuan sebagai berikut:
0 : Jarak cluster terlalu dekat dengan tetangga 1 : Optimal cluster
-1 : Cluster tidak sesuai
Hal yang Harus Diperhatikan Saat Menggunakan K-Means
1. Hasil optimal secara keseluruhan mungkin tidak tercapai
2. Jumlah cluster harus dipilih terlebih dahulu 3. KMeans terbatas pada cluster linier
4. KMeans bisa lambat untuk sejumlah besar sampel
Hierarchial Clustering Step
1. Pilih ukuran jarak/kemiripan dan penskalaan 2. Pilih metode penghubung (linkage)
Single Linkage (Penghubung Tunggal):
Metode ini menggabungkan dua cluster yang memiliki dua titik yang paling dekat satu sama lain. Ini cenderung menghasilkan cluster dengan bentuk yang panjang dan berliku.
Complete Linkage (Penghubung Lengkap):
Metode ini menggabungkan dua cluster yang memiliki dua titik yang paling jauh satu sama lain. Ini cenderung menghasilkan cluster dengan batas yang lebih jelas dan kompak.
Average Linkage (Penghubung Rata-rata):
Metode ini menggabungkan dua cluster berdasarkan rata-rata jarak antara semua
pasangan titik dalam kedua cluster. Ini cenderung menghasilkan cluster yang lebih seimbang dalam ukuran.
Ward's Linkage (Penghubung Ward):
Metode ini menggabungkan dua cluster dengan meminimalkan peningkatan dalam variansi (sum of squares) dalam cluster yang dihasilkan dari penggabungan. Ini cenderung menghasilkan cluster dengan varian yang seragam.
3. Setiap dari n observasi diperlakukan sebagai satu kelompok pada awalnya. Kelompok- kelompok yang paling mirip satu sama lain membentuk satu kelompok, sehingga setelah iterasi pertama, terdapat n-1 kelompok.
Algoritma ini berlanjut secara iteratif hingga semua observasi termasuk dalam satu kelompok, yang direpresentasikan dalam dendrogram.
4. Tentukan jumlah kelompok (cluster).
Kriteria Terbaik untuk Mengevaluasi Clustering
Pseudo-f : Semakin besar nilai pseudo-F, semakin baik hasil pengelompokan (jumlah cluster).
ICD Rate : Semakin kecil nilai Tingkat ICD (Index Davies-Bouldin) maka semakin baik hasil pengelompokan (metodenya).
Visual representation
(dendogram/scatterplot)
Selanjutnya dapat dilakukan Profiling.
Week 3 : Uji Hipotesis