Statistika Ekonomi & Bisnis
FEB UHAMKA, Oktober 2021
Oleh: Tono Saksono
7. Distribusi Normal
Distribusi probabilitas kontinyu yang terpenting adalah distribusi normal, atau kurfa normal, atau distribusi gauss yang fungsinya berbentuk:
𝑌 = 1
𝜎 2𝜋 𝑒−12 𝑋−𝜇 ൗ
2 𝜎2
(3) Dimana:
• Luas total daerah yang dibatasai oleh fungsi (3) dan sumbu x adalah satu.
Distribusi Normal (Schaum hal 123)
𝜇 = Mean (harga rerata)
𝜎 = Standard deviation (simpangan baku) 𝜋 = 3.14159 . . .
𝑒 = 2.71828 . . .
• Ide di atas dapat dikembangkan dimana variabel x dapat dianggap sebagai himpunan harga yang
kontinyu
• Relative frequency poligon untuk seluruh populasi (teoretis) akan merupakan fungsi kontinyu
Distribusi probabilitas yang kontinyu
• Total luas di bawah kurva ini = 1 (100%), dan luas daerah di bawah kurva antara x=a dan x=b memberikan nilai probabilitas harga x yang berada di antara a dan b. Atau ditulis:
𝑃𝑟 𝑎 < 𝑥 < 𝑏
• Luas daerah di bawah kurva antara dua titik 𝑋 = 𝑎 dan 𝑋 = 𝑏 dimana 𝑎 < 𝑏
merepresentasikan probabilitas X terletak antara a dan b yang dinyatakan dengan 𝑃𝑟 𝑎 < 𝑋 < 𝑏 .
• Jika variabel 𝑋 dinyatakan dalam unit standar 𝑧 = (𝑋 − 𝜇)/𝜎, persamaan (3) dikatakan berada dalam bentuk standar (standard form):
𝑌 = 1
2𝜋 𝑒−12𝑧2
(4)
Dalam kasus seperti ini, z dikatakan terdistribusi secara normal dengan mean sama dengan NOL, dan variance sama dengan SATU.
𝑓(𝑥)
𝑎 𝑏
𝑃(𝑎 ≤ 𝑥 ≤ 𝑏) Misal: 𝑏 = 1.72; 𝑎 = 1.50
Maka probabilitas 𝑥 akan berada di antara 𝑎 dan 𝑏 dapat dilihat dari Tabel Standard Normal Curve.
𝑃 𝑎 ≤ 𝑥 ≤ 𝑏 = 0.4573 − 0.4332
= 0.0241 = 2.41%
Yaitu luasan dalam kurva yang berwarna merah
Contoh 2.3 (Ramanathan)
• Luas daerah dari 0 sampai 1.72 adalah 0.4573;
• Karena kurva berbentuk simetri, luas daerah antara 0 dan -1.72 juga 0.4573;
• Jadi, luas antara 0.65 sampai 1.72 diperoleh dari selisih luas L1 (dari 0 ke 1.72) dengan L2 (dari 0 ke 0.65) = 0.4573-0.2422 = 0.1829 atau 18.29%;
• Dengan cara sama, kita dapat menghitung:
• 𝑃 −0.65 < 𝑥 < 1.44 = 0.2422 + 0.4251 = 0.6673 = 66.73%;
• 𝑃 −1.44 < 𝑥 < −0.65 = 0.1892 = 18.92%;
• 𝑃 𝑥 > 1.12 = 𝑃 𝑥 > 0 − 𝑃 0 < 𝑥 < 1.12 = 0.5 − 0.3686 = 0.1314 = 13.14%
• Bila kita memiliki indikasi distribusi sebuah populasi, umumnya kita dapat mencocokkannya dengan distribusi teoretis (dinamakan model atau
expected distribution);
• Secara umum, caranya dengan menggunakan mean dan standard deviation sampel untuk mengestimasi mean dan standard deviation dari seluruh
populasi;
• Untuk melakukan test the goodness of fit atas distribusi teoretis, kita
menggunakan chi-square test yang akan dijelaskan pada bab selanjutnya (Bab 12);
• Sebagai upaya untuk menentukan apakah sebuah distribusi normal
merupakan good fit atas data yang ada, kita dapat menggunakan normal curve graph atau probability graph paper seperti contoh berikut:
Mencocokkan distribusi teoretis dengan sample frequency distribution
• Kita akan mencek, apakah disribusi frekuensi data bobot 100
mahasiswa pada Tabel 2.1 yang lalu menunjukkan distribusi normal?
• Pertama kali, kita mengkonversi distribusi frekuensinya menjadi cumulative relative frequency distribution seperti pada Tabel 7.5.
• Kemudian kita plot data di atas Contoh 7.32 (hal 136)
Bobot (kg) Frekuensi
kumulatif relatif (%)
< 62.5 5
< 65.5 23
<68.5 65
< 71.5 92
< 74.5 100
• Normal curve graph atau
probability graph paper sukar diperoleh, maka kita plot saja melalui Excel (pendekatan);
• Grafik di samping menunjukkan trend yang linier sempurna yang mengindikasikan goodness of fit sampel data dengan normal
distribution.
• Atau distribusi normal sangat cocok dengan sampel data.
This slide is intentionally left blank
Beberapa contoh lain
• Banyak contoh yang mengikuti pola distribusi normal;
• Misal: tinggi badan, ukuran benda yang diproduksi mesin, kesalahan dalam pengukuran, tekanan darah, nilai ujian, dsb.;
• Distribusi normal memiliki sifat:
• Mean = median = mode;
• Simetri terhadap tengahnya
• 50% nilainya < daripada mean-nya;
• 50% nilainya > daripada mean-nya.
• Lihat permainan Quincunx berikut:
Contoh 1:
• 95% mahasiswa/i memiliki tinggi badan antara 1.1m dan 1.7m;
• Anggaplah data terdistribusi secara normal, maka:
𝑀𝑒𝑎𝑛 = 1.1𝑚 + 1.7𝑚
2 = 1.4𝑚;
• 95% adalah 2𝜎 (standard deviasi) ke sebelah kiri dan kanan mean (total: 4𝜎), maka: 𝜎 = 1.7𝑚−1.1𝑚
4 = 0.6𝑚
4 = 0.15𝑚.
Keuntungan mengetahui harga stndard deviation adalah: kita dapat mengatakan bahwa:
• Mungkin (likely) dalam batas 1𝜎 (68 dari 100 data berada pada batasan tersebut);
• Sangat mungkin (very likely) dalam batas 2𝜎 (95 dari 100 data berada pada batasan tersebut);
• Hampir pasti (almost certainly) dalam batas 3𝜎 (997 dari 1000 data berada pada batas tersebut.
Standard Scores
• Harga standard deviation dari mean juga dinamakan Standard Scores, Sigma, atau z-score.
• Misal, di sekolah yang sama salah seorang mahasiswa memiliki tinggi tubuh 1.85m;
• Kita lihat kembali bell curve dimana 1.85m berada pada wilayah 3𝜎 dari mean yang memiliki harga 1.4m;
• Dengan demikian, mahasiswa ini berada pada z-score 3.0.
• Jaraknya dari mean: 1.85m- 1.4m = 0.45m → dari mean;
• Karena 𝜎 = 0.15𝑚, ini berarti jaraknya 3𝜎 dari mean.
Standard Normal Distribution
• Pertama kurangkan mean dari data, kemudian bagi dengan standard deviation (𝜎).
• Ini dinamakan proses menstandarisasi (standardizing);
• Semua normal distribution dapat distandarisasi
• Sebuah survey perjalanan harian mahasiswa ke kampus (dalam
menit) diperoleh data sbb: 26, 33, 65, 28, 34, 55, 25, 44, 50, 36, 26, 37, 43, 62, 35, 38, 45, 32, 28, 34;
• Proyek 1: Hitunglah z-score untuk masing-masing data;
• Buat Kelompok Kerja terdiri atas 4-5 mahasiswa/i;
• Masing-masing Kelompok Kerja mempresentasikan hasilnya, minggu depan.
Contoh : Waktu Perjalanan
• Seorang dosen memberikan nilai ujian sbb: 20, 15, 26, 32, 18, 28, 35, 14, 26, 22, 17 → dari nilai maksimum 60 yang seharusnya diperoleh;
• Kebanyakan mahasiswa/i bahkan tidak memperoleh nilai 30, dan kebanyakan akan gagal;
• Ujian ini pasti sangat sukar, maka si dosen memutuskan menstandarisasi semua nilai;
• Mean = 23, dan Standard Deviation = 6.97. Berikut adalah Standard Scorenya: -0.43, -1.15, 0.43, 1.29, -0.72, 0.72, 1.72, -1.29, 0.43, -0.14, -0.86;
• Standarisasi hanya membuat dua orang mahasiwa/i gagal yang memang berada di bawah -𝜎;
• Proyek 2: Kerjakan detil perhitungan standarisasi ini.
Mengapa distandarisasi?
• Berikut adalah Standrad Normal Distribution dengan persentase
setiap pertengahan standard deviation dan persentase kumulatifnya.
Lebih jauh tentang Bell Curve
Contoh:
• Nilai seorang mahasiswa pada ujian adalah 0.5 standard deviation di atas harga rerata. Berapa orang yang memperoleh nilai lebih rendah?
• Antara 0 dan 0.5 adalah 19.1%;
• Lebih rendah dari 0 adalah 50% (belah kiri dari kurva);
• Dengan demikian, total yang memperoleh nilai di atas adalah:
50% + 19.1% = 69%
Secara teori 69.1% lebih rendah dari nilai mahasiswa di atas;
Namun, dengan menggunakan real data, persentasenya mungkin berbeda.
Contoh praktek timbangan:
• Sebuah perusahaan pengepakan gula menimbang 100 paket 1 kg seratus kali;
• Diperoleh data sebagai berikut: 1007 gram, 1032 gram, 1002 gram, 1004 gram, dst;
• Harga reratanya (mean) 𝜇 = 1010 gram;
• Standard deviasinya 𝜎 = 20 gram;
• Berarti, beberapa paket memiliki bobot yang kurang dari 1000 gram, dan Anda harus mengkoreksinya;
• Normal distribution hasil pengukuran Anda tampak seperti gambar di atas;
• Sekitar 31% paket gula perusahaan Anda kurang dari 1000 gram;
• Ini artinya merugikan pelanggan Anda!
• Kita lakukan koreksi pada mesin timbangan dengan dua cara
• Pada -3𝜎. Dari bell curve yang lalu, kita melihat bahwa luas wilayah ini hanya 0.1%. Ini terlalu kecil;
• Pada -2.5𝜎. Di bawah 3𝜎 adalah 0.1%, dan antara 3𝜎 dan 2.5𝜎 adalah 0.5%. Keduanya memiliki luas total 0.1% + 0.5% = 0.6% → ini pilihan yang lebih realistis;
• Jadi, mari kita koreksi mesin timbangan agar diperoleh 1000 gram pada -2.5𝜎 dari mean.
Kita koreksi dengan:
• Menambah jumlah gula pada tiap kantong (berarti merubah mean- nya), atau
• Melakukan timbangan yang lebih akurat dengan menurunkan 𝜎 (standard deviation).
Merubah mean pada setiap kantong
• 𝜎 = 20 gram;
• Kita memerlukan koreksi 2.5𝜎 = 2.5 x 20 gram = 50 gram;
• Dengan demikian, mesin timbangan harus memperoleh harga mean 1050 gram seperti gambar berikut:
Mengkoreksi ketelitian timbangan
• Kita tetap mempertahankan 𝜇 = 1010 𝑔𝑟𝑎𝑚, tapi kita kita harus memperoleh 2.5𝜎 = 10 𝑔𝑟𝑎𝑚.
• Berarti, 𝜎= 10 𝑔𝑟𝑎𝑚
2.5 = 4 𝑔𝑟𝑎𝑚 → harus dicari timbangan yang lebih akurat;
• Atau kombinasi dua solusi di atas.
8. Metode Sampling
dan Teorema Central Limit
8.1 Pendahuluan
• Dalam kesimpulan statistik, tujuan kita adalah menentukan sesuatu tentang populasi hanya berdasarkan sampel;
• Populasi adalah keseluruhan kelompok individu atau objek;
• Sampelnya adalah bagian dari populasi itu;
• Sekarang kita mulai cara melakukan pengambilan sampel;
• Sampel adalah alat untuk menyimpulkan tentang sebuah populasi;
• Kita mulai dengan membahas metode pemilihan sampel dari suatu populasi;
• Selanjutnya, kita akan kaji distribusi sample mean untuk memahami
bagaimana sample mean cenderung mengelompok di sekitar population mean;
• Akhirnya, kita akan lihat bahwa untuk populasi mana pun, bentuk distribusi sampling ini cenderung mengikuti distribusi probabilitas normal.
• Tujuan statistik inferensial adalah untuk menemukan sesuatu tentang populasi berdasarkan sampel;
• Sampel adalah bagian dari populasi yang kita selidiki.
• Kita akan bahas alasan utama pengambilan sampel, dan beberapa metode untuk memilih sampel.
• Beberapa alasan pengambilan sampel:
1) Untuk mengkaji seluruh populasi akan memakan waktu;
2) Biaya mempelajari semua item dalam suatu populasi mahal, bahkan mungkin tidak mungkin.
3) Secara fisik, tidak juga mungkin melakukan studi semua item dalam universe;
8.2 Metoda Sampling
4) Dalam banyak kasus, ada efek yang merusak jika harus melakukan untuk semua populasi (universe) → misal: mencoba rasa rokok, minuman alkohol, dsb.
5) Hasil dari sebuah sampel cukup. Meskipun jika biaya dan waktu
bukan halangan, tidak mungkin akan memperoleh hasil yang 100%.
Random sampling sederhana
• Metode ini yang paling banyak digunakan;
• Sampel dipilih sehingga setiap item atau orang dalam populasi memiliki peluang yang sama untuk dimasukkan.
• Cara yang paling sederhana adalah dengan pengundian;
• Misal: untuk memilih 50 dari 800 karyawan.
• Metode yang lebih mudah adalah dengan
menggunakan nomor identifikasi masing-masing karyawan dan tabel nomor acak;
• Angka-angka dihasilkan oleh proses acak (komputer).
Untuk setiap digit angka, probabilitas 0, 1, 2,. . . , 9 adalah sama;
• Banyak software statistik yang menyediakan paket
untuk memperoleh simple random sample. Excel-pun memiliki fasilitas ini.
• Contoh: seorang manajer RBnB hotel yang memiliki 8 kamar harus menempatkan tamunya pada kamar-
kamar yang tersedia. Agar jangan bias, digunakan random number generator. Atau menghitung
occupancy rate dengan memilih 5-malam sebagai
sampel untuk bulan Juni 2011 → lihat file Excel (akan dijelaskan kemudian)
June Rentals Sample
1 0 4
2 2 2
3 3 4
4 2 3
5 3 2
6 4
7 2
8 3
9 4
10 7
11 3
12 4
13 4
14 4
15 7
16 0
17 5
18 3
19 6
20 2
21 3
22 2
23 3
24 6
25 0
26 4
27 1
28 1
29 3
30 3
Systematic random sampling
• Simple random sampling mungkin jadi rumit untuk situasi tertentu;
• Misal: sudah ada 2000 invoice penjualan yang tersedia di laci. Harus dipilih 100 invoice untuk mengestimasi revenue;
• Maka, jika menggunakan simple random sampling, kita harus memberikan penomoran pada masing-2 invoice untuk diundi → makan waktu lama.
• Kita gunakan systematic random sampling. Misal:
setiap invoice nomor k;
• Dimana k diperoleh dari 2,000/100 =20;
Stratified random sampling
• Jika populasi dapat dibagi ke dalam grup berdasarkan karakteristik tertentu dengan jelas;
• Grup ini juga dinamakan strata;
• Misal: mahasiwa dikelompokkan menjadi yang penuh dan paruh waktu;, laki dan perempuan, dll;
• Random, tapi berdasarkan rasio terhadap ukuran grupnya;
• Contoh: Kita akan melakukan studi pengeluaran iklan untuk 352 perusahaan terbesar di Amerika Serikat
• Untuk menentukan apakah perusahaan dengan profit tinggi juga menghabiskan biaya yang lebih besar untuk iklan;
• Agar representatif dan adil, 352 perusahaan tsb
dikelompokkan berdasarkan persentase pengembalian atas ekuitas.
STRATA Profitability
(return on equity)
Number of Firms
Relative Frequency
Number Sampled
1 ≥ 30% 8 0.02 1*
2 20% - 30% 35 0.10 5*
3 10% - 20% 189 0.54 27
4 0% - 10% 115 0.33 16
5 Deficit 5 0.01 1
352 1.00 50
*0.02 x 50 = 1, 0.10 x 50 = 5, dst.
Cluster sampling
• Populasi dibagi ke dalam cluster menggunakan batas geografi alam atau yang lain;
• Kemudian, cluster dipilih secara random, dan sampel dikoleksi secara random dalam cluster tersebut;
• Contoh:
Anda ingin menentukan pandangan penduduk di sebuah provinsi tentang kebijakan perlindungan lingkungan;• Memilih sampel acak penduduk provinsi tsb dan secara pribadi menghubungi masing-masing akan memakan waktu dan sangat mahal;
• Alternatif: Anda bisa menggunakan cluster sampling dengan membagi provinsi menjadi unit-unit kecil
(kabupaten atau kota). Ini disebut unit primer.
Cluster sampling . . .
• Misal, kita bagi provinsi menjadi 12 unit primer, lalu memilih secara acak empat wilayah: 2, 7, 4, dan 12;
• Kita pusatkan survey dalam unit primer ini;
• Dengan mengambil sampel acak dari
penduduk di masing-masing wilayah dan melakukan mewawancara;
• Jadi, ini merupakan kombinasi dari cluster sampling dan simple random sampling.