• Tidak ada hasil yang ditemukan

Referensi : 1. Komputasi Statistik Dengan Software R, I Gede Nyoman Mindra, didi.staff.gunadarma.ac.id/downloads/files/13709/babv.

N/A
N/A
Protected

Academic year: 2021

Membagikan "Referensi : 1. Komputasi Statistik Dengan Software R, I Gede Nyoman Mindra, didi.staff.gunadarma.ac.id/downloads/files/13709/babv."

Copied!
12
0
0

Teks penuh

(1)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 11

2

­ Statistika Deskriptif 

STATISTIKA DESKRIPTIF

2

Referensi :   1. ‘Komputasi Statistik Dengan Software R’, I Gede Nyoman Mindra, 2009  2. didi.staff.gunadarma.ac.id/Downloads/files/13709/BabV.pdf     

Ukuran Statistik

  2.1   RATA­RATA (MEAN)  

Mean  merupakan  deskripsi  statistika  yang  menggambarkan  tentang  nilai  rata‐ rata  dari  suatu  sample.  Perhitungan  rerata  secara  matematis  adalah  sebagai  berikut:  

Mean =   ∑  

Dalam  R  terdapat  fungsi  untuk  menghitung  nilai  rata‐rata  sampel.  Fungsi  yang  digunakan  adalah  mean(x)  ataupun  dengan  menggunakan  fungsi  summary(x).   Sebagai contoh, digunakan data dari datapackage yang sudah tersedia di R, pilih  salah satu data (misalkan Nile). Kemudian hitung nilai rata‐rata sampel, dengan  menuliskan:  > data() > data(Nile) > Nile Time Series: Start = 1871 End = 1970 Frequency = 1 [1] 1120 1160 963 1210 1160 1160 813 1230 1370 1140 995 935 1110 [14] 994 1020 960 1180 799 958 1140 1100 1210 1150 1250 1260 1220 [28] 1030 1100 774 840 874 694 940 833 701 916 692 1020 1050 [41] 969 831 726 456 824 702 1120 1100 832 764 821 768 845 [54] 864 862 698 845 744 796 1040 759 781 865 845 944 984 [67] 897 822 1010 771 676 649 846 812 742 801 1040 860 874 [80] 848 890 744 749 838 1050 918 986 797 923 975 815 1020 [94] 906 901 1170 912 746 919 718 714 740 > mean(Nile) [1] 919.35 Hasil tersebut di atas adalah menunjukkan tentang data Nile yang terdiri dari 100  data dengan nilai mean 919.35.         

(2)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 12

2

­ Statistika Deskriptif 

2.2  Nilai Tengah (median)  

Seperti  halnya  dengan  mean,  R  juga  menyediakan  fungsi  untuk  mencari  nilai  tengah  (median)  sampel  dengan  menuliskan  fungsi  median().  Sebagai  contoh,  dapat digunakan data seperti mencari nilai mean sebelumnya untuk menghitung  nilai tengah (median):      > median(Nile) [1] 893.5    2.3   Modus  Modus adalah sebuah nilai pengamatan yang paling sering muncul  dalam suatu  eksperimen. Syntax R untuk mencari modus dituliskan sebagai table().    > table(Nile) Nile 456 649 676 692 694 698 701 702 714 718 726 740 742 744 746 749 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 759 764 768 771 774 781 796 797 799 801 812 813 815 821 822 824 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 831 832 833 838 840 845 846 848 860 862 864 865 874 890 897 901 1 1 1 1 1 3 1 1 1 1 1 1 2 1 1 1 906 912 916 918 919 923 935 940 944 958 960 963 969 975 984 986 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 994 995 1010 1020 1030 1040 1050 1100 1110 1120 1140 1150 1160 1170 1180 1210 1 1 1 3 1 2 2 3 1 2 2 1 3 1 1 2 1220 1230 1250 1260 1370 1 1 1 1 1   

Dari  Nilai  diatas,  yang  frekuensinya  paling  besar  adalah  nilai  pengamatan  845,  1020, 1100, dan 1160    2.4   Nilai minimum dan maksimum   R menyediakan fasilitas untuk mencari nilai minimum dan maksimum suatu data,   yaitu dengan digunakan perintah min() dan max()     

> min(x) # untuk nilai minimum, dan > max(x) # untuk nilai maksimum

 

2.5   Rentang data  

Rentang suatu data adalah nilai maksimum dikurangi nilai minimum. Jika di 2.4  telah  ditunjukkan  bagaimana  mencari  nilai  maksimum  dan  minimum,  maka  syntax R untuk mencari range data adalah:     > Rentang<-max(data)-min(data) > rentang<-max(Nile)-min(Nile) > rentang [1] 914  

(3)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 13

2

­ Statistika Deskriptif 

2.6   Varians  

Dalam  teori  probabilitas  dan  statistika,  varians  atau  ragam  dari  peubah  acak  (atau distribusi probabilitas) adalah ukuran yang menunjukkan dispersi statistik  (seberapa jauh data tersebar di sekitar rata‐rata). Varians atau ragam merupakan  ukuran penyebaran dari data. Formula dari varians data sampel dapat dituliskan  sebagai berikut:     > var(Nile) [1] 28637.95   2.7   Standar Deviasi 

Dalam  statistika  dan  probabilitas,  simpangan  baku  atau  standar  deviasi  adalah  ukuran sebaran statistik yang paling lazim. Singkatnya, ia mengukur bagaimana  nilai‐nilai data tersebar. 

 

Simpangan  baku  didefinisikan  sebagai  akar  kuadrat  varians.  Simpangan  baku  merupakan  bilangan  tak‐negatif,  dan  memiliki  satuan  yang  sama  dengan  data.  Misalnya jika suatu data diukur dalam satuan meter, maka simpangan baku juga  diukur dalam meter pula.     > sd(Nile) [1] 169.2275   2.8   Standard Error Rata­rata  Standard error rata‐rata adalah pengukuran untuk mengukur seberapa jauh nilai  rata‐rata  bervariasi  dari  satu  sampel  ke  sampel  lainnya  yang  diambil  dari  distribusi yang sama.  

 

Apa perbedaan standard error (of mean) dengan standar deviasi ? Kalau standard  deviasi  adalah  suatu  indeks  yang  menggambarkan  sebaran  data  terhadap  rata‐ ratanya,  maka  standard  error  (of  mean)  adalah  indeks  yang  menggambarkan  sebaran  rata‐rata  sampel  terhadap  rata‐rata  dari  rata‐rata  keseluruhan  kemungkinan sampel (rata‐rata populasi). 

 

Pengukuran  ini  berguna,  terutama  untuk  menjawab  pertanyaan  “seberapa  baik  rata‐rata  yang  kita  dapatkan  dari  data  sampel  dapat  mengestimasi  rata‐rata  populasi  ?”  Rumus  standard  error  of  mean  dan  perhitungan  berdasarkan  data  adalah sebagai berikut: 

> sd(Nile)/sqrt(length(Nile))

[1] 16.92275   

(4)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 14

2

­ Statistika Deskriptif 

2.9   Ruang Antar Kuartil 

Ruang  antar  kuartil  (Inter  Quartil  Range)  yakni  jarak  antara  kuartil  tiga  dan  kuartil  satu.  Simpangan  kuartil  digunakan  sebagai  ukuran  variansi,  jika  ukuran  kecendrungan sentral yang digunakan adalah median. Jika median membagi dua,  maka kuartil membagi distribusi menjadi empat bagian yang sama.    > IQR(Nile) [1] 234    2.10 Summary Statistik 

Ringkasan  deskriptif  statistic  secara  instan  didapatkan  dengan  syntax  summary(), perintah ini akan menampilkan nilai minimum, kuartil pertama, nilai  tengah (median), kuartil ke tiga dan maksimum. 

 

> summary(Nile)

Min. 1st Qu. Median Mean 3rd Qu. Max. 456.0 798.5 893.5 919.4 1032.0 1370.0     

Grafik

  R dilengkapi dengan fasilitas untuk visualisasi statistik dalam bentuk grafik, baik  statistik,  kontur,  map,  dll.  Sistem  grafik  di  R  terdiri  dari  dua  sistem:  sistem  (dasar/default)  yang  terdapat  dalam  paket  graphics  dan  sistem  trellis  yang  terdapat  dalam  paket  lattice.  Grafik  di  R  dapat  diatur  sesuai  keperluan.  Untuk  melihat  lebih  detil  mengenai  fitur  grafik  dalam  R,  pilih  menu  Help  di  menu  R  kemudian pilih Manual (dalam format pdf) atau HTML help. Untuk mendapatkan  gambaran  langsung  tentang  grafik  dalam  R,  dapat  dilihat  dalam  fungsi  demo(),  dengan menuliskan   

 

> demo() # untuk melihat jenis-jenis demo > demo(graphics) # atau

> demo(image) # atau > demo(persp) # atau

> demo(lattice) # sebelumnya diperlukan load package dan pilih lattice pada menu di windows R anda; atau

> demo(package = .packages(all.available = TRUE)) # untuk melihat semua jenis demo yang tersedia

 

Beberapa    fungsi  grafik  yang  sering  digunakan  dalam  statistika  deskriptif  diantaranya adalah scatter plot, histogram, plot densitas, stem and leaf serta box  plot. Untuk mengetahui lebih lanjut, sub 2.11 sampai 2.16 akan mendeskripsikan  secara lengkap. 

(5)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 15

2

­ Statistika Deskriptif 

2.11 Grafik Dasar 

Fungsi  yang  paling  sering  digunakan  dalam  R  adalah  fungsi  plot().  Fungsi  ini  dapat digunakan untuk membuat scatterplots, time‐series plots,  function graph,  dll. Jika digunakan pembuatan grafik untuk vector tunggal, nilai yang di plotkan  ada  pada  posisi  y‐axis  dan  pada  x‐axis  adalah  indeksnya.  Jika  ada  dua  vector  berpasangan  maka  plotnya  dinamakan  sebagai  bivariate  scatterplots.  Syntaxdalam  R  adalah  Plot(y~x)  atau  plot(x,y).  Misal  ingin  dibuat  scatter  plot  dari data yang telah tersimpan pada program R, yaitu data mtcars. 

 

> data(mtcars) > attach(mtcars)

> plot(wt,mpg,main="scatter example", xlab="car weight", ylab="mile per gallon", pch=19)

> abline(lm(mpg~wt),col="red") > lines(lowess(wt,mpg), col="blue")  

Perintah  abline(lm(y~x))  memperlihatkan  model  linear  atau  garis  regresi  dari  data  “mile  per  gallon”  dan  “car  weight”.  Sedangkan  fungsi  lines(lowess(x,y))  memperlihatkan  garis  regresi  terboboti  yang  dapat  mewakili  titik‐titik  dalam  scatter plot. Hasil yang diperoleh seperti yang terlihat pada Gambar 2.1.      Gambar 2.1. scatter plot mile per gallon vs car weight       

(6)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 16

2

­ Statistika Deskriptif 

Kita coba menggunakan data ACTpop pada bab sebelumnya. Namun plot kali ini  bukan berupa titik‐titik, namun tersambung dengan garis. Syantax nya adalah 

 

> ACTpop<- read.table(“e:/Latihan R/ACTpop.txt”, header=TRUE) > plot(ACT~Year,data=ACTpop, type="l")) Hasilnya adalah      Gambar 2.2. Plot ACTpop    Ukuran, warna dan pilihan symbol dalam R    Beberapa syntax yang terkait dengan pembuatan grafik adalah  ƒ plot()  ƒ point()  ƒ cex : ekspresi karakter  ƒ col : warna  ƒ pch : pilihan symbol    Ketikkan syntax berikut dalam R   

> plot(1, 1, xlim=c(1, 7.5), ylim=c(0,5), type="n") > points(1:7, rep(4.5, 7), cex=1:7, col=1:7, pch=0:6)

> text(1:7,rep(3.5, 7), labels=paste(0:6), cex=1:7, col=1:7) > points(1:7,rep(2,7), pch=(0:6)+7) # Plot simbol 7 hingga 13

> text((1:7)+0.25, rep(2,7), paste((0:6)+7)) # Label dengan bilangan simbol

> points(1:7,rep(1,7), pch=(0:6)+14) # Plot symbols 14 hingga 20

> text((1:7)+0.25, rep(1,7), paste((0:6)+14)) # Labels dengan bilangan simbol

(7)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 17

2

­ Statistika Deskriptif  Maka hasilnya dapat diperlihatkan oleh Gambar 2.3.      Gambar 2.3. Simbol, Kode dan Warna dalam R    2.12 Histogram 

Selain  plot,  bentuk  representasi  grafis  lainnya  yang  paling  mudah  digunakan  untuk  menggambarkan  sebaran  data  adalah  histogram.  R  menyediakan  fasilitas  fungsi histogram yang digunakan untuk mengetahui sebaran sampel suatu data.  Sebagai  catatan:  histogram  ataupun  boxplot,  digunakan  untuk  satu  variable.   Sebelum  kita  mencoba  untuk  menggunakan  fasilitas  histogram,  maka  perlu  sedikit penjelasan yang berkaitan dengan histogram, yaitu:  

 

ƒ Histogram  digunakan  untuk  mengestimasi  fungsi  distribusi  probabilitas  densitas (probability density function);     lim P /     ƒ Histogram ditentukan pula oleh bin/lebar batang;   ƒ Sumbu‐ y dalam histogram dapat berupa frekuensi kemunculan atau proporsi;   ƒ Tidak ada estimasi statistik yang dapat dibaca langsung dari histogram, namun  dengan  histogram  kita  dapat  menduga  kemiringan,  sifat/behavior  pada  tail  atau ujung kurva, dan outlier data;  

ƒ Histogram dapat dibandingkan sebagai suatu distribusi analitik standar. 

 

Contoh:

 Digunakan data mtcars pada R.   

(8)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 18

2

­ Statistika Deskriptif  > data(mtcars) > attach(mtcars) > hist(mpg) Hasilnya dapat dilihat pada Gambar 2.4 berikut    Gambar 2.4. Histogram data “mile per gallon”    2.13 Plot Densitas 

Histogram  memang  dapat  digunakan  untuk  melihat  sebaran  data  dan  mengestimasi  fungsi  densitas.  Namun  dalam  R  juga  disediakan  fungsi  atau  perintah  untuk  menggambar  fungsi  densitas.  Syntax‐nya  adalah  plot(density(data)).   

Contoh:

 Masih digunakan data mtcars pada R.  > plot(density(mpg)) Hasilnya dapat dilihat pada Gambar 2.5.      2.14 Menggabungkan Histogram dan Plot Densitas 

Gabungan  histogram  dan  plot  densitas  memperjelas  sebaran  data  tertentu.  Syntax‐nya adalah:    > dens<-density(mpg) > xlim<-range(dens$x) > ylim<-range(dens$y) > hist(mpg,probability=TRUE,xlim=xlim, ylim=ylim) > lines(dens)

(9)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 19

2

­ Statistika Deskriptif  Hasilnya dapat dilihat pada Gambar 2.6.    Gambar 2.5. Plot densitas “mile per gallon”        Gambar 2.6. Gabungan Histogram dan Plot densitas       

(10)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 20

2

­ Statistika Deskriptif  2.15 Stem and Leaf  Selain histogram, R juga menyediakan plot yang fungsinya menyerupai histogram  yakni stem‐and‐leaf plot dengan penulisan syntax:      > stem(variabel)   Contoh: masih menggunakan data mtcars    > stem(mpg)

The decimal point is at the |

10 | 44 12 | 3 14 | 3702258 16 | 438 18 | 17227 20 | 00445 22 | 88 24 | 4 26 | 03 28 | 30 | 44 32 | 49   2.16 Box Plot 

Selain  dua  alat  untuk  menggambarkan  grafik  untuk  satu  variable  yang  sudah  dijelaskan sebelumnya, terdapat fasilitas boxplot yang digunakan untuk melihat  sebaran data. Berikut adalah penjelasan tentang fitur dasar boxplot:     ƒ Berguna untuk membanding banyak kelompok/grup.   ƒ Dasarnya menggunakan 3 jenis summary: 3 quartil.   ƒ Mudah dalam menampilkan nilai rerata (mean).  

ƒ Dapat  diperluas  untuk  menampilkan  persentil  lainnya,  terutama  pada  ujung(tails) suatu distribusi.  

 

R menyediakan fitur untuk menampilkan boxplot, dengan menuliskan fungsi   boxplot(variabel).    Untuk  menjelaskan  penggunaan  fungsi    boxplot(),    berikut  adalah  contoh  menggambar  grafik  dengan  menggunakan  data    mtcars  seperti  pada contoh sebelumnya. 

 

> boxplot(mpg)

Haslnya  seperti  pada  Gambar  2.7.sedangkan  jika  ingin  menampilkan  beberapa  boxplot  agar  bisa  membandingkan  boxplot  satu  dengan  yang  lain,  maka  digunakan syntax: 

> boxplot(wt, mpg, qsec, carb)

Hasilnya terdapat pada Gambar 2.8.   

(11)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 21

2

­ Statistika Deskriptif  Gambar 2.7. Boxplot “mile per gallon)  Gambar 2.8. Gabungan beberapa boxplot   

Latihan Praktikum:

Coba interpretasikan stem and leaf dan boxplot yang telah dibuat dalam R!!     

(12)

Anindya Apriliyanti P, M.Si – Jurusan Statistika FMIPA Unpad 22

2

­ Statistika Deskriptif 

Latihan Mandiri Modul 2

Gunakan data yang terdapat pada R. Ketikkan syntax    > data()   Maka akan muncul data set yang telah ada dalam R beserta deskripsinya.       

Tugas  anda  adalah:  pilih  salah  satu  data  tersebut!  Lakukan  eksplorasi  data 

dengan statistika deskriptif. Interpretasikan!!    

 

PERHATIAN: 

Jika  tidak  ingin  menggunakan  data  yang  ada  dalam  R,  carilah  data  yang  ada  di  internet!  Tetap  gunakan  data  tersebut  untuk  melakukan  berbagai  analisis  selanjutnya yang ada dalam modul ini 

Referensi

Dokumen terkait