STATISTIK, PENGERTIAN DAN EKSPLORASIDATA
1 Populasi dan Sampel
1. Populasi dan Sampel
2. Statistik dan Statistika
3. Jenis-jenis Observasi
4. Statistika Deskriptif
•Sari Numerik
•Penyajian Data
© 2008 by USP & UM ; last edited Aug 10 MA 2181 Analisis Data, Agustus 2010
Utriweni Mukhaiyar
ILUSTRASI
Data nilai ujian Analisis Data dari 15 mahasiswa Program Studi Matematika semester ganjil tahun 2008:
87 37 59 49 69 95 83 87 39 95 83 76 83 26 46
2
© 2008 by UM
3 59 49 9 95 3 39 95 3 3 4
Berapa rata-rata nilai ujian?
Seberapa mahasiswa Seberapa menyebarnya
kemampuan dari mahasiswa?
Apakah rata Apakah rata-rata
nilai tahun ini lebih baik daripada tahun
lalu?
Adakah
khusus Adakah mahasiswa yang perlu perhatian
khusus? Inferensi
statistik Statistika
deskriptif
S TATISTIK DAN S TATISTIKA
Statistik : nilai-nilai ukuran data yang mudah dimengerti.
Contoh : statistik liga sepak bola Indonesia
Statistika : ilmu yang berkaitan dengan cara pengumpulan, pengolahan, analisis dan pernarikan kesimpulan atas data.
3
© 2008 by UM
JENIS-JENISSTATISTIKA
1. Statistika deskriptif: metode yang berkaitan dengan pengumpulan dan penyajian data.
2. Statistika inferensi: metode yang berkaitan dengan analisis sampel untuk penarikan kesimpulan tentang karakteristik populasi kesimpulan tentang karakteristik populasi.
4
© 2008 by UM
POPULASI DANSAMPEL
Populasi Sampel
5
setiap obyek populasi memiliki kemungkinan/kesempatan yang sama untuk terpilih
hasil pengukuran atau pengamatan
Sampel Acak Data
© 2008 by UM
CONTOHPOPULASI DANSAMPEL
Akan dilakukan penelitian apakah tahun pertama di ITB (TPB) memberikan pengaruh terhadap perubahan berat badan mahasiswa.
Untuk itu dilakukan pengambilan data pada hari terakhir ujian TPB.
@ UM
j
6
Populasi
Sampel
Seluruh mahasiswa TPB
ITB
?
Kendala: - sangat banyak, -menghabiskan waktu, -menghabiskan biaya
Contoh: tiap-tiap kelas TPB diambil secara acak 10 orang mahasiswa.
Kaidah Pengambilan Sampel (Teknik
Sampling) Keterwakilan sampel
atas populasi ??
JENIS-JENISOBSERVASI
OBSERVASI / DATA
KUALITATIF KUANTITATIF
7
Nominal Ordinal/Rank Diskrit Kontinu
Tidak mengenal urutan dan operasi
aritmatika
Mengenal urutan dan operasi aritmatika
Berhubungan
p g
Berhubungan dengan
‘proses menghitung’, dan pengamatan atas
himpunan terhitung. g
Didasarkan pada suatu selang/interval sehingga meliputi semua bilangan riil Warna batuan (abu-
abu, hitam, putih, coklat, dll), jenis
kelamin , dll
Ukuran baju (S, M, L, XL), ukuran kepuasan (tidak suka sama sekali,
tidak suka, biasa saja, suka, sangat suka)
Banyaknya pekerja yang dibutuhkan dalam suatu area pertambangan, jarak yang dilangkahi seseorang (bisa mundur, bisa maju) per 0,5 meter
Berat batuan, luas area pertambangan,
jarak tempuh truk pengangkut, suhu,
dll
© 2008 by UM
STATISTIKADESKRIPTIF
Metode yang berkaitan dengan pengolahan dan penyajian suatu gugus data sehingga memberikan
informasi yang berguna.
8
bentuk distribusi data
© 2008 by UM
KARAKTERISTIKDISTRIBUSI
1. PARAMETER
DISTRIBUSI Ukuran
Pemusatan
y Ukuran Penyebaran Kemencengan
mean, median, modus, kuartil atas, kuartil
bawah, dll Range, simpangan baku, variansi, jangkauan antar
kuartil, dll skewness
9 2. BENTUK
DISTRIBUSI Simetris
Menceng/skew Positif
g Menceng/skew
Negatif gg
Berpuncak Tunggal Berpuncak
Jamak
Kelancipan kurtosis
mean = median
mean > median
mean < median
# modus > 1 # modus = 1
© 2008 by UM
CONTOH KASUS
Berikut adalah data nilai ujian Statistik Dasar dari 15 mahasiswa Program Studi tertentu. (n = 15)
87 37 59 49 69 95 83 87 39 95 83 76 83 26 46
10
x1 x2 x9 x12 x15
Data yang diurutkan:
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
x(1)x(2) x(9) x(12) x(15)
Adakah perbedaan dari penyajian kedua data di atas?
minimum maksimum
© 2008 by UM
UKURANPEMUSATANDATA
1. Mean (rata-rata)
x n xi
i n
1
1
11
1 2 ... 15
15 87 37 ... 46
67, 60 15
x x x
x
Contoh :
© 2008 by UM
50% data ( 50% data (akhirakhir)) 50 % data (
50 % data (awalawal))
2. Median
Nilai tengah yang membagi dua kelompok data sama banyak.
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 x(8) 3 x 2 x 2 x
y
12
3. Modus
Nilai yang paling sering muncul.
med = x
(8)= 76
mod = 83
© 2008 by UM
25 %
25 % 25 %25 % 25 %25 % 25 %25 %
4. K
UARTILKuartil bawah (q ) :
26 37 39 46 49 59 69 76 83 83 83 87 87 95 95
q1 q2= med q3
46 q x x q x
Kuartil bawah (q1) :
13
1 15 1 (4)
4
46 q x x
3 3(15 1) (12)
4
87 q x x
2 15 1 (8)
2
76 q x x
2 2( 1) 1
4 2
n n
q x x
3 3( 1)
4
q x n
1 1
4
q xn
Kuartil tengah (q2) :
Kuartil atas (q3) :
© 2008 by UM
5. P
ERSENTIL26 37 39 46 49 59 69 76 83 83 83 87 87 95 95 p25 p50= med p75
• Persentil ke-i : ( 1)
100
x
i n
14
median
kuartil atas kuartil bawah
• Persentil ke-50 :
• Persentil ke-25 dan Persentil ke-75?
50( 1) 1
100 2
n n
x
x
© 2008 by UM
UKURANPENYEBARANDATA
2
2 1 2 1 2 1
n
n n i
i
x
2 529 25711. Jangkauan data (Range) R = datamax– datamin 2. Variansi
R = 95 – 26 = 69
15
2 2 2 1
1 1
1 1
( )
1 1
i
i i
i i
s x x x
n n n
529, 2571 23, 01
s
2 529, 2571 s
3. Simpangan Baku (standard deviation) s = √s2
4. Jangkauan antar kuartil dq = q3– q1
JKXX
dq = q3– q1= 87 – 46 = 41
© 2008 by UM
DATAPENCILAN
Data yang nilainya berbeda jauh dari kelompok data yang lain.
Bagaimana mendeteksi data pencilan ??
1. Hitung dq dq = 41 Pilih nilai k = 3/2 (tidak mutlak)
16
g q
2. Hitung BBP = q1– k.dq
3. Hitung BAP = q3+ k.dq 4. Pencilan bawah < BBP 5. Pencilan atas > BAP
q
BBP = 46 – (1,5)(41) = -15,5
BAP = 87 + (1,5)(41) = 148,5 tidak ada pencilan bawah tidak ada pencilan atas
© 2008 by UM
SARI NUMERIK Count (banyak data, n) 15
Sum (jumlah data) 1014
Average (rata-rata) 67.6 Median (kuartil tengah) 76
Mode (modus) 83
Minimum 26
Maximum 95
Range 69
mean < median
Range 69
Standard Deviation 23.01
Variance 529.2571
Skewness -0.50*
Kurtosis -1.23*
25th Percentile (persentil-25) 46 50th Percentile (persentil-50) 76 75th Percentile (persentil-75) 87 Interquartile Range (dk) 41
* Perhitungan dengan Mic. Excel
Menceng kiri
17
© 2008 by UM
PENYAJIANDATA
1. Pie Chart
2. Dot Plot
3. Histogramg
4. Diagram Batang – Daun (stem - leaf)
5. Diagram Kotak – Titik (box plot)
6. dll…
Penyajian data dalam bentuk grafik dapat dilakukan secara 18
manual maupun menggunakan software-software statistik seperti Microsoft Excel, SPSS, SAS, S-Plus, Minitab dan lainnya.
Skala penggambaran harus diperhatikan dalam penyajian data dalam bentuk grafik.
© 2008 by UM
PIECHART
23% 58%
10%
9%
58%
19
Pie chart merupakan grafik yang berbentuk lingkaran yang mana setiap potongannya mewakili proporsi atau persentase suatu komponen dari sebuah kelompok data (100%).
Pemakaian pie chart hanya cocok ketika menyatakan data dalam bentuk proporsi dari satu kelompok data.
© 2008 by UM
DOTPLOT
1.5 2 2.5 3 3.5
frekuensi
Cara menggambarkan data dalam bentuk titik, dengan memperhatikan frekuensi dari data yang bersangkutan
Titik ditumpuk diatas nilai data yang digambarkan.20
0 0.5 1
0 20 40 60 80 100
f
nilai
© 2008 by UM
HISTOGRAM
Histogram adalah gambar berdasarkan distribusi frekuensi
Setiap frekuensi dipresentasikan oleh suatu segi empat (rectangle).
Daerah setiap rectangle sebanding dengan frekuensinya.
21
© 2008 by UM
DIAGRAMBATANG-DAUN (STEM-LEAF)
Stem atau batang, mirip dengan grup data pada
histogram, sedangkan leaf atau daun, mirip dengan frekuensi.
Stem atau batang adalah digit pertama yang terpenting yang ada dalam bilangan yang membentuk harga data, sedangkan digit di belakangnya akan merupakan leaf atau daun.
Melalui stem-Leaf masih dapat dilihat nilai data mentahnya. 22
© 2008 by UM
DIAGRAMKOTAK-TITIK (BOX-PLOT)
47.5 85 95
76
40 50 60 70 80 90
100 max
q1
q2 q3
mean
Box Plot digunakan untuk menyelidiki distribusi tanpa menggunakan grup data seperti pada histogram dan diagram batang daun.
Box Plot terdiri dari: datamin , q1, q2(median), q3, dan datamax yang disusun secara terurut dengan membentuk kotak.
23 26
0 10 20
30 min
© 2008 by UM
PENCILAN PADABOXPLOT
max kedua q3
* pencilan atas
24
min ketiga q1
q2
q3
mean
** pencilan bawah
© 2008 by UM
KELEMAHAN DANKEUNGGULAN
KELEMAHAN KEUNGGULAN
DOT PLOT Tidak efektif untuk ukuran data yang besar
Cepat
Nilai data asli dapat diperkirakan HISTOGRAM
Lama
Banyak perhitungan Nilai data tidak nampak
Histogram peluang dapat memberi gambaran tentang distribusi populasi Tidak menuntut ketelitian dalam
t t ti il i d t Nilai data tidak nampak mencatat setiap nilai data
BATANG-
DAUN Menuntut ketelitian mencatat daun
Cepat
Tidak memerlukan perhitungan Nilai data asli dapat dilihat Memudahkan perhitungan berbagai parameter
BOX PLOT
Membutuhkan perhitungan yang panjang
Terdiri dari parameter- parameter dari data yang sudah diurutkan
Box plot dapat memberi gambaran tentang bentuk distribusi populasi Efektif untuk membandingkan bentuk distribusi beberapa kelompok data sekaligus
25
© 2008 by UM
BENTUKDISTRIBUSIIDEAL NORMAL
26
© 2008 by UM
mean = median
Memiliki bentuk distribusi yang simetris, yaitu :
Skewness = 0
Kurtosis = 3, (dalam software tertentu kurtosis normal = 0
TRANSFORMASIDATA
Transformasi dilakukan untuk mendapatkan bentuk distribusi yang lebih simetris.
Transformasi Tangga Tukey
27
-1/x2 -1/x √x log (x) x x2 x3 10x
data awal untuk bentuk distribusi : skewness negatif untuk bentuk distribusi :
skewness positif
Data contoh kasus : skewness = -0,5 (menceng kiri), maka transformasi yang mungkin adalah x2, x3, dan 10x.
© 2008 by UM
Merenggangkan data‐data yang berharga kecil
dan merapatkan data‐data yang berharga besar Merapatkan data‐data yang berharga kecil dan merenggangkan data‐data yang berharga besar
T
RANSFORMASID
ATAC
ONTOHK
ASUS87 3759 4969
x
7569 13693481 24014761
y = x2
Lebih mendekati simetris (skew = 0) dibanding sebelum transformasi
(skew = -0,5)
69 9583 8739 9583 76 8326 46
28 4761
90256889 75691521 90256889 5776 6889676 transformasi 2116
skew = -0,18
** Ketika data ditransformasi, maka satuan dari data juga akan berubah
© 2008 by UM
REFERENSI
Djauhari, M.A., 2001, Catatan Kuliah Analisis Data.
Devore, J.L. and Peck, R., Statistics – The Exploration and Analysis of Data, USA: Duxbury Press, 1997.
Walpole, Ronald E. dan Myers, Raymond H., Ilmu Peluang dan S i ik k I i d Il Edi i 4 B d
29
© 2008 by UM
Statistika untuk Insinyur dan Ilmuwan, Edisi 4, Bandung:
Penerbit ITB, 1995.
Walpole, Ronald E., et.al, Statistitic for Scientist and Engineering, 8th Ed., 2007.
Wild, C.J. and Seber, G.A.F., Chance Encounters – A first Course in Data Analysis and Inference, USA: John Wiley&Sons,Inc., 2000.
Pasaribu, U.S., 2007, Catatan Kuliah Biostatistika.