Statistika Deskriptif
A. Diponegoro April 20211 Introdcution
Topik 1. Tampilan Data 2. Ukuran Lokasi Data3. Ukuran Pemusatan dan Sebaran Data
2 Tampilan Data
2.1 Grafik Stemplot (Stem-and-leaf plot)
1. Penggambaran sederhana untuk ukuran data yang relatif kecil. 2. Untuk menggambarkan, stiap data dipilah menjadi dua kategori
a) Stem (batang)
b) Leaf (daun) : digit signifikan terakhir. 3. Contoh 1:
a) Data nilai ujian MK Matematika Bisnis (sudah disortir dari kecil ke besar):
33; 42; 49; 49; 53; 55; 55; 61; 63; 67; 68; 68; 69; 69; 72; 73; 74; 78; 80; 83; 88; 88; 88; 90; 92; 94; 94; 94; 94; 96; 100
b) Grafik Stemplot:
Stem (batang) Leaf (Daun)
3 3 4 2 9 9 5 3 5 5 6 1 3 7 8 8 9 9 7 2 3 4 8 8 0 3 8 8 8 9 0 2 4 4 4 4 6 10 0
Penjelasan: Dari grafik stemplot terlihat bahwa sebagian nilai ujian berada pada 60-an, 70-an, 80-an, dan 90-an. Terdapat 12 dari 31 mahasiswa atau 25.8% mendapat nilai “A.” 4. Contoh 2:
a) Diketahui sampel data jarak tempuh rumah mahasiswa dengan kampus UHAMKA (sudah disortir kecil ke besar) dalam stuan kilometer:
1.1; 1.5; 2.3; 2.5; 2.7; 3.2; 3.3; 3.3; 3.5; 3.8; 4.0; 4.2; 4.5; 4.5; 4.7; 4.8; 5.5; 5.6; 6.5; 6.7; 12.3 Apakah grafik mengindikasikan adanya konsentrasi data.
b) Grafik Stemplot:
Dalam kasus ini, daun (leaf) ada pada pecahan desimal. Stem (batang) Leaf (Daun)
1 1 5 2 3 5 7 3 2 3 3 5 8 4 0 2 5 5 7 8 5 5 6 6 5 7 7 8 9 10 11 12 3
Penjelasan: Jarak tempuh terkonsentrasi pada 3 dan 4 kilometer.
2.2 Digram Garis
1. Diagram garis menggambarkan frekuensi kemunculan data dalam bentuk kurva. a) Sumbu horizontal (datar) adalah nilai data
b) Sumbu vertikal (tegak) terdiridari poin-poin frekuensi.
c) Antar poin frekeunsi yang bersebelahan dihubungkan dengan segmen garis. 2. Contoh 3:
a) Dalam sebuah survey, 40 orang tua anak remaja ditanyakan berapa kali dalam seminggu anaknya harus diperingati untuk mengerjakan tugasnya. Tampilkan tabel frekuensi di bawah dalam bentuk diagram batang.
b) Tabel Frekuensi:
Berapa kali dlm seminggu
seorang remaja diingatkan Frekuensi
0 2 1 5 2 8 3 14 4 7 5 4 c) Diagram garis:
2.3 Diagram Batang
1. Diagram ini terdiri dari batang yang dipisahkan satu sama lain. Batang dapat berbentuk persegi panjang atau kotak persegi panjang (jika memakai plot tiga dimensi), dan dapat berbentuk vertikal atau horizontal.
a) Setiap batang menggambarkan frekuensi satu kelompok data (bin)
b) Kelompok data dapat disusun sebagai sumbu horisontal atau sebagai sumbu vertikal. 2. Contoh 4:
a) Pada akhir 2011, Facebook memiliki lebih dari 146 juta pengguna di Amerika Serikat. Tabel di bawah menunjukkan tiga kelompok umur, jumlah pengguna di setiap kelompok umur, dan proporsi (%) pengguna di setiap kelompok umur. Buat grafik diagram batang menggunakan data ini.
b) Tabel frekuensi.
Kelompok Umur Jml. Pengguna Facebook Proporsi Pengguna
13–25 65,082,280 45%
26–44 53,300,200 36%
45–64 27,885,100 19%
c) Diagram batang:
3. Contoh 5:
a) Kolom pada Tabel di bawah berisi: ras atau etnis siswa di Sekolah Umum AS untuk kelas tahun 2011 dan persentase populasi untuk kelas tersebut. Buat grafik batang dengan ras atau etnis siswa (data kualitatif) pada sumbu x, dan persentase populasi peserta ujian “Penempatan Lanjut” pada sumbu y.
b) Tabel Frekuensi:
Ras / Etnis Proporsi populasi 1 = Asia, Amerika Asia atau Kepulauan Pasifik 10.3% 2 = Hitam atau Afrika Amerika 9.0% 3 = Hispanik atau Latino 17.0% 4 = Penduduk Asli Amerika atau Alaska 0.6%
5 = Putih 57.1%
6 = Tidak dilaporkan / lainnya 6.0% c) Diagram batang:
2.4 Histogram
1. Sebuah histogram terdiri dari kotak yang berdampingan, memiliki sumbu horizontal dan sumbu vertikal. Histogram digunakan untuk menggambarkan distribusi data kontinu (skala interval maupun rasio).
a) Sumbu horizontal diberi label dengan apa yang diwakili oleh data (misalnya, jarak dari rumah ke sekolah).
b) Sumbu vertikal diberi label frekuensi atau frekuensi relatif (atau persen frekuensi atau prob-abilitas). Grafik akan sama bentuknya, baik memakai label frekuensi maupun frekuensi relatif.
c) Histogram (seperti juga stemplot) dapat memberikan ilustrasi bentuk data, pusat, dan sebaran data.
d) Frekuensi relatif sama dengan frekuensi untuk nilai data yang diamati dibagi dengan jumlah total nilai data dalam sampel. (Ingat, frekuensi didefinisikan sebagai berapa kali suatu event muncul)
e) Jika
• fi = frekuensi kategori interval-i (atau event i)
• n = jumlah total frekensi semua kategori event. Maka frekuensi relatif dari interval-i adalah
RF = fi n 2. Cara membuat histogram:
a) Tentukan berapa banyak batang atau interval, juga disebut kelas, yang mewakili data. Banyak histogram terdiri dari 5 hingga 15 interval (batang). Jumlah batang haruslah di-tentukan.
b) Pilih titik awal untuk interval pertama kurang dari nilai data terkecil.
• Titik awal yang mudah dihitung adalah angka yang lebih rendah dari data terkecil, dan angka tersebut satu digit desimal lebih banyak daripada data dengan nilai angka desimal terbanyak.
• Contoh 6:
– Apabila nilai data dengan desimal terbanyak adalah 6.1, dan ini adalah juga nilai kecil data, maka titik awal yang bisa dipakai adalah 6.05 (6.1 – 0.05 = 6.05) – Apabila nilai data dengan desimal terbanyak adalah 2.23, dan nilai data terkecil
data adalah 1.5, maka titik awal yang bisa digunakan adalah 1.495 (1.5 – 0.005 = 1.495)
– Misalkan semua data adalah bilangan bulat, dan nilai terkecil data adalah 2, maka titik awal adalah 1.5 (2 – 0.5 = 1.5)
• Titik akhir yang mudah dihitung adalah angka yang lebih tinggi dari data terbesar, dan angka tersebut satu digit desimal lebih banyak daripada data dengan angka desimal terbanyak.
c) Hitung Lebar interval dengan membagi selisih dari data terbesar dan data terkecil dengan jumlah batang.
Lebar interval = data terbesar − data terkeciljumlah batang 3. Contoh 7:
a) Diberikan data tinggi badan 100 pemain sepakbola (dalam inci) yang telah disusun sbb: 60; 60.5; 61; 61; 61.5 63.5; 63.5; 63.5 64; 64; 64; 64; 64; 64; 64; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5; 64.5 66; 66; 66; 66; 66; 66; 66; 66; 66; 66; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 66.5; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67; 67.5; 67.5; 67.5; 67.5; 67.5; 67.5; 67.5 68; 68; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69; 69.5; 69.5; 69.5; 69.5; 69.5 70; 70; 70; 70; 70; 70; 70.5; 70.5; 70.5; 71; 71; 71 72; 72; 72; 72.5; 72.5; 73; 73.5 74
b) Nilai terkecil adalah 60 dan terbesar adalah 74 • Titik awal adalah 60 – 0.05 = 59.95 • Titik akhir adalah 74 + 0.05 = 74.05
• Andaikan akan digambarkan 8 interval, maka lebar interval
(74.05−59.95)/8= 1.76
Misalkan dibulatkan menjadi 2. Catatan: Nilai boleh dibulatkan, tetapi jangan menye-babkan sampai ada data yang tidak masuk interval, atau ada interval yang tidak berisi data.
• Jadi batas-batas intervalnya berturut-turut adalah: – 59.95 – 59.95 + 2 = 61.95 – 61.95 + 2 = 63.95 ... – 71.95 + 2 = 73.95 – 73.95 + 2 = 75.95
• Berikutnya, untuk mempermudah, boleh dibuat dahulu tabel frekuensi (maupun frekuensi relatifnya) untuk setiap interval, atau dapat juga langung dibuat histogramnya.
–
Interval Kelas Frekuensi Frekuensi Relatif 59.95 – 61.90 5 0.05 61.95 – 63.90 3 0.03 63.95 – 65.90 15 0.15 65.95 –67.90 40 0.40 67.95 – 69.90 17 0.17 69.95 – 71.90 12 0.12 71.95 – 73.90 7 0.07 73.95 – 75.95 1 0.01
–
2.5 Poligon Frekuensi
1. Poligon frekuensi analog dengan diagram garis, tetapi ini digunakan untuk menggambarkan dis-tribusi data kontinu (sebagaimana histogram).
2. Prosedurnya sama dengan untuk membuat histogram. Bedanya frekuensi (atau frekuensi relatif) digambarkan sebagai titik, yang dihubungkan dengan garis lurus.
3. Contoh 8:
a) Diketahui distribusi frekuensi Nilai MK Statistika.
Interval Kelas Nilai tengah Frekuensi F. Kumulatif 49.50 – 59.00 54.5 5 5 59.50 – 69.00 64.5 10 15 69.50 – 79.00 74.5 30 45 79.50 – 89.00 84.5 40 85 89.50 – 99.00 94.5 15 100 b) Gambar poligon frekuensinya
3 Ukuran Lokasi Data Sampel
Ukuran yang umum dari lokasi data adalah persentil, kuartil dan median.
3.1 Persentil Sampel
a) Untuk menghitung persentil, data disortir berurutan dari kecil ke besar. b) Setelah disortir menaik, data dibagi menjadi 100 bagian yang sama banyak.
c) Persentil ke-k adalah data yang posisinya k% pertama banyaknya data (yang sudah disortir). 2. Contoh 9: Persentil
Diberikan data sampel berukuran 100 sebagai berikut, (sudah disortir menaik): 2 6 7 8 9 11 12 15 20 20 20 22 22 22 24 26 28 29 30 30 31 34 35 37 38 39 40 42 45 47 47 50 54 59 61 62 63 66 66 67 76 83 84 84 85 87 87 88 94 94 94 95 97 99 99 100 101 102 103 108 109 113 115 118 119 120 121 122 124 125 127 128 130 134 138 138 139 145 147 149 150 154 162 165 165 168 173 176 178 181 183 184 188 189 190 190 196 196 198 200 a) persentil ke-5 adalah 9
b) Persentil ke-20 adalah 30 c) Persentil ke-50 adalah 94 d) Persentil ke 75 adalah 138
3.2 Kuartil (Q) Sampel
1. Kuartil adalah kasus khusus dari persentil. Dalam statistik dikenal tiga macam kuartil, Q1, Q2,
dan Q3.
a) Untuk menetukan kuartil, data disortir menaik dari terkecil hingga terbesar. Kemudian, data dibagi menjadi empat bagian yang sama banyak.
b) Kuartil pertama, atau Q1 = data yang posisinya 25% pertama = persentil ke-25.
c) Kuartil kedua, atau Q2 = data yang posisinya 50% pertama = persentil ke-50.
d) Kuartil ketiga, atau Q3 = data yang posisinya 75% pertama = persentil ke-75.
2. Contoh 10: Kuartil
Diberikan data sampel pada Contoh 9, tentukan Q1, Q2, dan Q3
a) Q1 = 38
b) Q2 = 94
c) Q3 = 138
3. Rentang antar kuartil (IQR = interquartil range).
Adalah angka yang menunjukkan penyebaran setengah tengah atau 50% tengah dari data. Ini adalah selisih antara kuartil ketiga ( Q3 ) dan kuartil pertama (Q1 ).
IQR = Q3− Q1
4. Contoh 11: IQR
Diberikan data sampel pada Contoh 9. Rentang antar kuartilnya adalah IQR = 138 − 38 = 100
3.3 Median (m) sampel
1. Median adalah angka yang merupakan ukuran “tangah-tengah” dari data, atau disebut juga nilai tengah.
2. Untuk mengetahuinya, data disortir menaik kemudian diidentifikasi data yang terletak di tengah posisinya.
a) Untuk data sampel yang ukurannya berjumlah ganjil, maka mendian nya (nilai tengahnya) berupa data hasil pengamatan yang posisinya ditengah-tengah data yang sudah disortir. b) Untuk data sampel yang ukurannya berjumlah genap, maka mediannya adalah setengah
dari jumlah dua data observasi yang posisinya ditengah-tengah data yang sudah disortir. 3. Contoh 12:Median (data sampel berukuran ganjil)
Diketahui data sampel: {1; 11.5; 6; 7.2; 4; 8; 9; 10; 6.8; 8.3; 2; 2; 10} hitung median. a) Sortir dahulu secara menaik: {1; 2; 2; 4; 6; 6.8; 7.2; 8; 8.3; 9; 10; 10; 11.5}
b) Maka median adalah data hasil pengamatan yang posisinya ditengah-tengah data yang sudah disortir, yaitu data ke-7.
m = 7.2 4. Contoh 13: Median (data sampel yang berukuran genap).
Diketahui data sampel: {1; 11.5; 6; 7.2; 4; 8; 9; 10; 6.8; 8.3; 2; 2} hitung median. a) Sortir dahulu secara menaik: {1; 2; 2; 4; 6; 6.8; 7.2; 8; 8.3; 9; 10; 11.5}
b) Maka median adalah adalah setengah dari dua data observasi yang posisinya ditengah-tengah data yang sudah disortir, yaitu
m = 6.8 + 7.2 2 = 7
4 Ukuran Pemusatan
Ukuran pemusatan yang paling banyak digunakan adalah rata-rata (mean) dan median dari sampel. Istilah yang lebih teknis untuk rata-rata (mean) yang dimaksud di sini adalah rata-rata artimatik (arithmatic mean). Untuk median sampel sudah dijelaskan pada bagian sebelumnya. Selain mean dan median, ukuran pemusatan yang lain adalah mode.
4.1 Rata-rata Sampel
1. Rata-rata sampel, dinotasikan sebagai ¯x, biasa dibaca ‘x bar’.
2. Misalkan data hasil pengamatan yang banyaknya berukuran nadalah x1, x2, . . ., xn. Rata-rata
sampel dihitung dengan:
¯
x = x1+ x2+ . . . + xn
n =
Σni=1xi
n 3. Contoh 14: Rata-rata sampel
Diketahui data sampel hasil pengamatan : {1; 1; 1; 2; 2; 3; 4; 4; 4; 4; 4}. Hitung rata-rata sampel. Ukuran sampelnya adala n= 11. Maka rata-rata sampelnya adalah
¯
x = 1 + 1 + 1 + 2 + 2 + 3 + 4 + 4 + 4 + 4 + 4
11 = 2.7
dapat juga ditulis sebagai berikut ¯
x = 3(1) + 2(2) + 1(3) + 5(4) 11 = 2.7
4.2 Menghitung Rata-rata Sampel dari Tabel Frekuensi
1. Apabila data sampel hanya disajikan dalam bentuk tabel frekuensi, maka untuk menghitung rata-ratanya digunakan formula
¯ x = f1m1+ f2m2+ . . . + fnmn f1+ f2+ . . . + fn = Pn i=1fimi Pn i=1fi dimana
• fi = frekuensi interval ke-i
• mi = nilai tengah interval ke-i, dan
• n= jumlah interval
2. Contoh 15: Diketahui hasil nilai ujian MK Statistika Bisnis dalam bentuk tabel frekuensi sebagai berikut. Hitunglah rata-rata aritmatik nilai ujian tersebut.
Interval Nilai Nilai Tengah (mi) Jml Mhs (fi)
50.0–56.4 53.2 1 56.5–62.4 59.45 0 62.5–68.4 65.45 4 68.5–74.4 71.45 4 74.5–80.4 77.45 2 80.5–86.4 83.45 3 86.5–92.4 89.45 4 92.5–98.4 95.45 1 Jawab: ¯ x = 1(53.2) + 0(59.45) + 4(65.45) + 4(71.45) + 2(77.45) + 3(83.45) + 4(89.45) + 1(95.45) 1 + 0 + 4 + 4 + 2 + 3 + 4 + 1 = 14.59 19 = 76.81 4.3 Rata-rata Populasi
Rata-rata populasi, biasa diberi notasi sebagai µ, yang dibaca ‘myu.’ Untuk menghitung populasi dapat digunakan rumus
µ =
PN
i=1xi
N
dimana N adalah ukuran atau besar populasi. Perbedaannya dengan rata-rata sampel adalah dari data yang digunakan. Untuk rata-rata populasi, maka data yang digunakan adalah keseluruhan elemen populasi, sedangkan rata-rata sampel hanya dihitung berdasarkan data sampel.
4.4 Mode
1. Mode adalah data yang paling banyak muculnya.
2. Contoh 16: Diberikan data sampel: {1; 11; 6; 7; 4; 8; 9; 10; 2; 2}. Berapakah mode? Jawab: mode = 2.
3. Contoh 17: Diketahui data sampel: {1; 11; 6; 7; 4; 8; 9; 9; 10; 2; 2}. Brapakah mode? Jawab: tidak ada.
5 Ukuran Sebaran Data
1. Rentang (Range) dan Rentang antar Kuartil (Interquartile range) 2. Simpangan baku (standard deviation)
3. Ragam (variance) 4. Koefisien Variasi
5.1 Rentang (R)
1. Rentang (range) adalah selisih nilai data tertinggi dengan nilai data terkecil. R =nilai tertinggi − nilai terendah
2. Contoh 18: Diketahui data sampel: {1; 11; 6; 7; 4; 8; 9; 9; 10; 2; 2}. Brapakah rentangnya? Jawab: R = 11 − 1 = 10.
5.2 Simpangan Baku Sampel (s)
1. Simpangan baku (standard deviation) dari sampel, diberi notasi s, mengukur seberapa jauh data-data tersebar terhadap rata-ratanya. Simpangan baku memberikan ukuran seberapa besar variabilitas data. Semakin besar simpangan baku maka semakin tinggi variabilitas atau sebaran datanya.
2. Simpangan baku sampel dihitung menggunakan formula s = s Pn i=1(xi− ¯x)2 n − 1 • xi: data pengamatan ke i. • ¯x: rata-rata sampel • n: ukuran sampel
3. Contoh 19: Diketahui data sampel {10, 20, 30, 40, 50}. Hitunglah simpangan baku sampel. a) Hitung dahulu rata-rata sampel: ¯x = 10+20+30+40+50
5 = 30.
b) Simpangan baku sampel: s = s (10 − 30)2+ (20 − 30)2+ (30 − 30)2+ (40 − 30)2+ (50 − 30)2 5 − 1 = r 1000 4 = 15.81
5.3 Ragam Sampel atau Variansi Sampel (s2)
1. Variansi sampel dihitung dengan formula: s2= Pn i=1(xi− ¯x)2 n − 1 • xi: data pengamatan ke i. • ¯x: rata-rata sampel • n: ukuran sampel
2. Contoh 20: Diketahui data sampel pada Contoh 19. Hitunglah variansi sampel. a) Rata-rata sampel diketahui ¯x = 30 (dari contoh sebelumnya).
b) Variansi sampel: s2 = (10 − 30) 2 + (20 − 30)2+ (30 − 30)2+ (40 − 30)2+ (50 − 30)2 5 − 1 = 1000 4 = 250
5.4 Menghitung Simpangan Baku Sampel dari Tabel Frekuensi
1. Apabila data sampel hanya disajikan dalam bentuk tabel frekuensi, maka untuk menghitung simpangan baku digunakan formula
s = s Pj i=1fi(mi− ¯x)2 n − 1 dimana
• fi = frekuensi interval ke-i
• n = (Pn
i=1fi)= jumlah frekuensi
• j=jumlah interval
2. Contoh 21: Diketahui Sampel data dalam bentuk tabel frekuensi sebagai berikut. Hitunglah sipangan baku.
Interval Nilai N. Tengah (mi) Frek. (fi) Frek × N. Tengah (fi× mi) 0 – 2 1 1 1 3 – 5 4 2 8 6 – 8 7 3 21 9 – 11 10 4 40 12 – 14 13 3 39 15 – 17 16 2 32 18 – 20 19 2 38 P7 i=1fi=17 P7i=1fimi=179
a) Hitung mean sampel ¯x = Pni=1fimi
Pn i=1fi
= 17917=10.53
b) Untuk mempermudah perhitungan simpangan baku, dapat digunakan tabel Interval Nilai N. Tengah
(mi) Frek. (fi) mi− ¯x (mi− ¯x)2 fi(mi− ¯x)2 0 – 2 1 1 1–10.53 = –9.53 90.82 90.82 3 – 5 4 2 4–10.53 = –6.53 42.64 85.28 6 – 8 7 3 7–10.53 = –3.53 12.46 37.38 9 – 11 10 4 10–10.53 = –0.53 0.28 1.12 12 – 14 13 3 13–10.53 = 2.47 6.10 18.30 15 – 17 16 2 16–10.53 = 5.47 29.92 59.84 18 – 20 19 2 19–10.53 = 8.47 71.74 143.48 P7 i=1fi(mi− ¯x)2 = 436.22
Simpangan baku sampel
s =
s
436.22
17 − 1 = 5.22
5.5 Koefisien Variasi (CV )
Koefisien variasi data sampel menggambarkan seberapa besar simpangan baku dibanding dengan rata-rata data. CV dihitung menggunakan
CV = s ¯ x100% Jika ¯x 6= 0.
5.6 Kecondongan Distribusi Data (Data Skewness)
Ada tiga jenis kecondongan (skewness) distribusi data: 1. Simetris.
Terjadi jika mean, median, dan mode ketiganya sama. 2. Kecondongan positif.
Umumnya mean lebih dari median. 3. Kecondongan negatif.
Umumnya mean kurang dari median.