Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 11
2
Statistika DeskriptifSTATISTIKA DESKRIPTIF
2
Referensi : 1. ‘Komputasi Statistik Dengan Software R’, I Gede Nyoman Mindra, 2009 2. didi.staff.gunadarma.ac.id/Downloads/files/13709/BabV.pdfUkuran Statistik
2.1 RATARATA (MEAN)Mean merupakan deskripsi statistika yang menggambarkan tentang nilai rata‐ rata dari suatu sample. Perhitungan rerata secara matematis adalah sebagai berikut:
Mean = ∑
Dalam R terdapat fungsi untuk menghitung nilai rata‐rata sampel. Fungsi yang digunakan adalah mean(x) ataupun dengan menggunakan fungsi summary(x). Sebagai contoh, digunakan data dari datapackage yang sudah tersedia di R, pilih salah satu data (misalkan Nile). Kemudian hitung nilai rata‐rata sampel, dengan menuliskan: > data() > data(Nile) > Nile Time Series: Start = 1871 End = 1970 Frequency = 1 [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 935 1110 [14] 994 1020 960 1180 799 958 1140 1100 1210 1150 1250 1260 1220 [28] 1030 1100 774 840 874 694 940 833 701 916 692 1020 1050 [41] 969 831 726 456 824 702 1120 1100 832 764 821 768 845 [54] 864 862 698 845 744 796 1040 759 781 865 845 944 984 [67] 897 822 1010 771 676 649 846 812 742 801 1040 860 874 [80] 848 890 744 749 838 1050 918 986 797 923 975 815 1020 [94] 906 901 1170 912 746 919 718 714 740 > mean(Nile) [1] 919.35 Hasil tersebut di atas adalah menunjukkan tentang data Nile yang terdiri dari 100 data dengan nilai mean 919.35.
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 12
2
Statistika Deskriptif2.2 Nilai Tengah (median)
Seperti halnya dengan mean, R juga menyediakan fungsi untuk mencari nilai tengah (median) sampel dengan menuliskan fungsi median(). Sebagai contoh, dapat digunakan data seperti mencari nilai mean sebelumnya untuk menghitung nilai tengah (median): > median(Nile) [1] 893.5 2.3 Modus Modus adalah sebuah nilai pengamatan yang paling sering muncul dalam suatu eksperimen. Syntax R untuk mencari modus dituliskan sebagai table(). > table(Nile) Nile 456 649 676 692 694 698 701 702 714 718 726 740 742 744 746 749 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 759 764 768 771 774 781 796 797 799 801 812 813 815 821 822 824 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 831 832 833 838 840 845 846 848 860 862 864 865 874 890 897 901 1 1 1 1 1 3 1 1 1 1 1 1 2 1 1 1 906 912 916 918 919 923 935 940 944 958 960 963 969 975 984 986 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 994 995 1010 1020 1030 1040 1050 1100 1110 1120 1140 1150 1160 1170 1180 1210 1 1 1 3 1 2 2 3 1 2 2 1 3 1 1 2 1220 1230 1250 1260 1370 1 1 1 1 1
Dari Nilai diatas, yang frekuensinya paling besar adalah nilai pengamatan 845, 1020, 1100, dan 1160 2.4 Nilai minimum dan maksimum R menyediakan fasilitas untuk mencari nilai minimum dan maksimum suatu data, yaitu dengan digunakan perintah min() dan max()
> min(x) # untuk nilai minimum, dan > max(x) # untuk nilai maksimum
2.5 Rentang data
Rentang suatu data adalah nilai maksimum dikurangi nilai minimum. Jika di 2.4 telah ditunjukkan bagaimana mencari nilai maksimum dan minimum, maka syntax R untuk mencari range data adalah: > Rentang<-max(data)-min(data) > rentang<-max(Nile)-min(Nile) > rentang [1] 914
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 13
2
Statistika Deskriptif2.6 Varians
Dalam teori probabilitas dan statistika, varians atau ragam dari peubah acak (atau distribusi probabilitas) adalah ukuran yang menunjukkan dispersi statistik (seberapa jauh data tersebar di sekitar rata‐rata). Varians atau ragam merupakan ukuran penyebaran dari data. Formula dari varians data sampel dapat dituliskan sebagai berikut: > var(Nile) [1] 28637.95 2.7 Standar Deviasi
Dalam statistika dan probabilitas, simpangan baku atau standar deviasi adalah ukuran sebaran statistik yang paling lazim. Singkatnya, ia mengukur bagaimana nilai‐nilai data tersebar.
Simpangan baku didefinisikan sebagai akar kuadrat varians. Simpangan baku merupakan bilangan tak‐negatif, dan memiliki satuan yang sama dengan data. Misalnya jika suatu data diukur dalam satuan meter, maka simpangan baku juga diukur dalam meter pula. > sd(Nile) [1] 169.2275 2.8 Standard Error Ratarata Standard error rata‐rata adalah pengukuran untuk mengukur seberapa jauh nilai rata‐rata bervariasi dari satu sampel ke sampel lainnya yang diambil dari distribusi yang sama.
Apa perbedaan standard error (of mean) dengan standar deviasi ? Kalau standard deviasi adalah suatu indeks yang menggambarkan sebaran data terhadap rata‐ ratanya, maka standard error (of mean) adalah indeks yang menggambarkan sebaran rata‐rata sampel terhadap rata‐rata dari rata‐rata keseluruhan kemungkinan sampel (rata‐rata populasi).
Pengukuran ini berguna, terutama untuk menjawab pertanyaan “seberapa baik rata‐rata yang kita dapatkan dari data sampel dapat mengestimasi rata‐rata populasi ?” Rumus standard error of mean dan perhitungan berdasarkan data adalah sebagai berikut:
√ > sd(Nile)/sqrt(length(Nile))
[1] 16.92275
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 14
2
Statistika Deskriptif2.9 Ruang Antar Kuartil
Ruang antar kuartil (Inter Quartil Range) yakni jarak antara kuartil tiga dan kuartil satu. Simpangan kuartil digunakan sebagai ukuran variansi, jika ukuran kecendrungan sentral yang digunakan adalah median. Jika median membagi dua, maka kuartil membagi distribusi menjadi empat bagian yang sama. > IQR(Nile) [1] 234 2.10 Summary Statistik
Ringkasan deskriptif statistic secara instan didapatkan dengan syntax summary(), perintah ini akan menampilkan nilai minimum, kuartil pertama, nilai tengah (median), kuartil ke tiga dan maksimum.
> summary(Nile)
Min. 1st Qu. Median Mean 3rd Qu. Max. 456.0 798.5 893.5 919.4 1032.0 1370.0
Grafik
R dilengkapi dengan fasilitas untuk visualisasi statistik dalam bentuk grafik, baik statistik, kontur, map, dll. Sistem grafik di R terdiri dari dua sistem: sistem (dasar/default) yang terdapat dalam paket graphics dan sistem trellis yang terdapat dalam paket lattice. Grafik di R dapat diatur sesuai keperluan. Untuk melihat lebih detil mengenai fitur grafik dalam R, pilih menu Help di menu R kemudian pilih Manual (dalam format pdf) atau HTML help. Untuk mendapatkan gambaran langsung tentang grafik dalam R, dapat dilihat dalam fungsi demo(), dengan menuliskan
> demo() # untuk melihat jenis-jenis demo > demo(graphics) # atau
> demo(image) # atau > demo(persp) # atau
> demo(lattice) # sebelumnya diperlukan load package dan pilih lattice pada menu di windows R anda; atau
> demo(package = .packages(all.available = TRUE)) # untuk melihat semua jenis demo yang tersedia
Beberapa fungsi grafik yang sering digunakan dalam statistika deskriptif diantaranya adalah scatter plot, histogram, plot densitas, stem and leaf serta box plot. Untuk mengetahui lebih lanjut, sub 2.11 sampai 2.16 akan mendeskripsikan secara lengkap.
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 15
2
Statistika Deskriptif2.11 Grafik Dasar
Fungsi yang paling sering digunakan dalam R adalah fungsi plot(). Fungsi ini dapat digunakan untuk membuat scatterplots, time‐series plots, function graph, dll. Jika digunakan pembuatan grafik untuk vector tunggal, nilai yang di plotkan ada pada posisi y‐axis dan pada x‐axis adalah indeksnya. Jika ada dua vector berpasangan maka plotnya dinamakan sebagai bivariate scatterplots. Syntaxdalam R adalah Plot(y~x) atau plot(x,y). Misal ingin dibuat scatter plot dari data yang telah tersimpan pada program R, yaitu data mtcars.
> data(mtcars) > attach(mtcars)
> plot(wt,mpg,main="scatter example", xlab="car weight", ylab="mile per gallon", pch=19)
> abline(lm(mpg~wt),col="red") > lines(lowess(wt,mpg), col="blue")
Perintah abline(lm(y~x)) memperlihatkan model linear atau garis regresi dari data “mile per gallon” dan “car weight”. Sedangkan fungsi lines(lowess(x,y)) memperlihatkan garis regresi terboboti yang dapat mewakili titik‐titik dalam scatter plot. Hasil yang diperoleh seperti yang terlihat pada Gambar 2.1. Gambar 2.1. scatter plot mile per gallon vs car weight
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 16
2
Statistika DeskriptifKita coba menggunakan data ACTpop pada bab sebelumnya. Namun plot kali ini bukan berupa titik‐titik, namun tersambung dengan garis. Syantax nya adalah
> ACTpop<- read.table(“e:/Latihan R/ACTpop.txt”, header=TRUE) > plot(ACT~Year,data=ACTpop, type="l")) Hasilnya adalah Gambar 2.2. Plot ACTpop Ukuran, warna dan pilihan symbol dalam R Beberapa syntax yang terkait dengan pembuatan grafik adalah plot() point() cex : ekspresi karakter col : warna pch : pilihan symbol Ketikkan syntax berikut dalam R
> plot(1, 1, xlim=c(1, 7.5), ylim=c(0,5), type="n") > points(1:7, rep(4.5, 7), cex=1:7, col=1:7, pch=0:6)
> text(1:7,rep(3.5, 7), labels=paste(0:6), cex=1:7, col=1:7) > points(1:7,rep(2,7), pch=(0:6)+7) # Plot simbol 7 hingga 13
> text((1:7)+0.25, rep(2,7), paste((0:6)+7)) # Label dengan bilangan simbol
> points(1:7,rep(1,7), pch=(0:6)+14) # Plot symbols 14 hingga 20
> text((1:7)+0.25, rep(1,7), paste((0:6)+14)) # Labels dengan bilangan simbol
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 17
2
Statistika Deskriptif Maka hasilnya dapat diperlihatkan oleh Gambar 2.3. Gambar 2.3. Simbol, Kode dan Warna dalam R 2.12 HistogramSelain plot, bentuk representasi grafis lainnya yang paling mudah digunakan untuk menggambarkan sebaran data adalah histogram. R menyediakan fasilitas fungsi histogram yang digunakan untuk mengetahui sebaran sampel suatu data. Sebagai catatan: histogram ataupun boxplot, digunakan untuk satu variable. Sebelum kita mencoba untuk menggunakan fasilitas histogram, maka perlu sedikit penjelasan yang berkaitan dengan histogram, yaitu:
Histogram digunakan untuk mengestimasi fungsi distribusi probabilitas densitas (probability density function); lim P / Histogram ditentukan pula oleh bin/lebar batang; Sumbu‐ y dalam histogram dapat berupa frekuensi kemunculan atau proporsi; Tidak ada estimasi statistik yang dapat dibaca langsung dari histogram, namun dengan histogram kita dapat menduga kemiringan, sifat/behavior pada tail atau ujung kurva, dan outlier data;
Histogram dapat dibandingkan sebagai suatu distribusi analitik standar.
Contoh:
Digunakan data mtcars pada R.
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 18
2
Statistika Deskriptif > data(mtcars) > attach(mtcars) > hist(mpg) Hasilnya dapat dilihat pada Gambar 2.4 berikut Gambar 2.4. Histogram data “mile per gallon” 2.13 Plot DensitasHistogram memang dapat digunakan untuk melihat sebaran data dan mengestimasi fungsi densitas. Namun dalam R juga disediakan fungsi atau perintah untuk menggambar fungsi densitas. Syntax‐nya adalah plot(density(data)).
Contoh:
Masih digunakan data mtcars pada R. > plot(density(mpg)) Hasilnya dapat dilihat pada Gambar 2.5. 2.14 Menggabungkan Histogram dan Plot DensitasGabungan histogram dan plot densitas memperjelas sebaran data tertentu. Syntax‐nya adalah: > dens<-density(mpg) > xlim<-range(dens$x) > ylim<-range(dens$y) > hist(mpg,probability=TRUE,xlim=xlim, ylim=ylim) > lines(dens)
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 19
2
Statistika Deskriptif Hasilnya dapat dilihat pada Gambar 2.6. Gambar 2.5. Plot densitas “mile per gallon” Gambar 2.6. Gabungan Histogram dan Plot densitas
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 20
2
Statistika Deskriptif 2.15 Stem and Leaf Selain histogram, R juga menyediakan plot yang fungsinya menyerupai histogram yakni stem‐and‐leaf plot dengan penulisan syntax: > stem(variabel) Contoh: masih menggunakan data mtcars > stem(mpg)The decimal point is at the |
10 | 44 12 | 3 14 | 3702258 16 | 438 18 | 17227 20 | 00445 22 | 88 24 | 4 26 | 03 28 | 30 | 44 32 | 49 2.16 Box Plot
Selain dua alat untuk menggambarkan grafik untuk satu variable yang sudah dijelaskan sebelumnya, terdapat fasilitas boxplot yang digunakan untuk melihat sebaran data. Berikut adalah penjelasan tentang fitur dasar boxplot: Berguna untuk membanding banyak kelompok/grup. Dasarnya menggunakan 3 jenis summary: 3 quartil. Mudah dalam menampilkan nilai rerata (mean).
Dapat diperluas untuk menampilkan persentil lainnya, terutama pada ujung(tails) suatu distribusi.
R menyediakan fitur untuk menampilkan boxplot, dengan menuliskan fungsi boxplot(variabel). Untuk menjelaskan penggunaan fungsi boxplot(), berikut adalah contoh menggambar grafik dengan menggunakan data mtcars seperti pada contoh sebelumnya.
> boxplot(mpg)
Haslnya seperti pada Gambar 2.7.sedangkan jika ingin menampilkan beberapa boxplot agar bisa membandingkan boxplot satu dengan yang lain, maka digunakan syntax:
> boxplot(wt, mpg, qsec, carb)
Hasilnya terdapat pada Gambar 2.8.
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 21
2
Statistika Deskriptif Gambar 2.7. Boxplot “mile per gallon) Gambar 2.8. Gabungan beberapa boxplotLatihan Praktikum:
Coba interpretasikan stem and leaf dan boxplot yang telah dibuat dalam R!!
Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 22
2
Statistika DeskriptifLatihan Mandiri Modul 2
Gunakan data yang terdapat pada R. Ketikkan syntax > data() Maka akan muncul data set yang telah ada dalam R beserta deskripsinya.
Tugas anda adalah: pilih salah satu data tersebut! Lakukan eksplorasi data
dengan statistika deskriptif. Interpretasikan!!
PERHATIAN:
Jika tidak ingin menggunakan data yang ada dalam R, carilah data yang ada di internet! Tetap gunakan data tersebut untuk melakukan berbagai analisis selanjutnya yang ada dalam modul ini