6. Teori Estimasi
EL2002-Probabilitas dan Statistik
Pendahuluan
• Inferensi statistik adalah metoda untuk menarik inferensi
atau membuat generalisasi dari suatu populasi.
• Ada dua metoda penting:
– Klasik: inferensi hanya berdasar pada hasil yng diperoleh dari cuplikan acak populasi
– Bayesian: menggunakan pengetahuan prior subyektif mengenai sebaran populasi sebagai tambahan terhadap informasi cuplikan populasi.
• Inferensi ada dua kategori:
– Estimasi: Mis. Pengambilan 100 cuplikan untuk mengetahui sebaran perolehan kandidat beberapa calon Walikota Bandung. Pengetahuan ttg sebaran cuplikan akan membantu mendapatkan derajat kepercayaan hasil estimasi.
– Uji hipotesa: Mis. Seorang ibu rumah tangga menganggap sabun merek A lebih baik dari merek B. Setelah beberapa pengujian, akan disimpulkan hipotesanya dapat diterima atau ditolak.
Ruang keputusan
• Estimasi dari populasi dapat berupa estimasi titik atau estimasi selang. • Estimasi titik dari parameter θ adalah suatu nilai tunggal θ^ dari
statistik Θ^.
– Contoh: nilai x dari statistik X yng dihitung dari n-buah cuplikan dari populasi merupakan estimasi parameter μ dari populasi.
• (Besaran) Statistik yang dipakai seseorang untuk menentukan estimasi titik disebut estimator atau fungsi keputusan.
– Dngan demikian, keputusan S yang merupakan fungsi dari cuplikan acak adalah estimator dari σ dan estimasi s adalah tindakan yang diambilnya.
• DEFINISI 6.1 Himpunan semua tindakan yang mungkin, yang dapat diambil dalam permasalahan estimasi disebut sebagai ruang tindakan atau ruang keputusan.
• Estimator selalu memberikan kesalahan. Untuk suatu cuplikan tertentu, mis. 2, 5, 11, estimasi dari μ dpt menghasilkan x=6 jika dipakai mean cuplikan atau x~=5 jika dipakai median. Disini X~ menghasilkan nilai
yng lebih baik. Sebaliknya, cuplikan 2, 6, 7 memberikan x=5 dan x~=6
Estimator takbias dan estimator efisien
• Misalkan Θ^ adalah estimator yang nilai θ^-nya adalah estimasi titik
dari parameter populasi tak diketahui θ. Tentu diinginkan bahwa
sebaran cuplikan Θ^ akan memiliki mean yang sama dengan parameter
yng diestimasi. Parameter yng spt ini disebut bersifat takbias.
• DEFINISI 6.2 Suatu statistik
Θ
^disebut estimator takbias dari
parameter θ jika μ
Θ= E(Θ
^)= θ.
• Dapat ditunjukkan (lihat buku) bahwa S2 adalah estimator takbias dari
σ2, akan tetapi S sendiri adalah estimator σ yang bias.
• Jika
Θ
1^dan
Θ
2^adalah dua estimator takbias dari populasi yang
sama dengan parameter θ, estimator dengan variansi terkecil-lah
yang akan dipilih. Dengan demikian, jika
σ
2Θ1< σ
2Θ2, maka
Θ
^1disebut lebih efisian daripada
Θ
^2.
• DEFINISI 6.3 Estimator dengan nilai variansi terkecil disebut
sebagai estimator yang paling efisien.
Pemilihan estimator
• Dari ketiga estimator diatas, Θ^
1 dan Θ^2 bersifat takbias karena sebarannya
memusat di satu nilai θ.
• Dari kedua estimator tak bias tersebut, Θ^
1 lebih efisien karena variansinya
terkecil. Dengan demikian kita akan memilih Θ^
1 sebagai estimator.
Θ
^ 1Θ
^ 2Θ
^ 3θ
θ
^Selang estimasi
• Selang estimasi dari parameter populasi
θ adalah interval yang
berbentuk
θ
^1<θ<θ
^2,dimana kedua batasnya tergantung pada
statistik
Θ
^suatu cuplikan dan juga sebarannya.
• Dari sebaran cuplikan
Θ
^kita akan dapat menentukan
θ
^1dan
θ
^2
sedemikian hingga P(Θ
^1< θ<Θ
^2) sama dengan nilai tertentu
yang diinginkan.
• Untuk P(Θ
^1
< θ<Θ
^2)=0.95 berarti bahwa kita memiliki peluang
0.95 untuk memilih cuplikan acak yang menghasilkan interval
tsb mengandung
θ. Selang ini disebut juga selang kepercayaan
(confident interval). Artinya:
– Kita percaya 95% bahwa selang yang kita pilih akan mengandung parameter populasi yang sebenarnya.
– Memperbesar peluang (derajat kepercayaan) menjadi 99% belum tentu memberikan informasi yang lebih baik karena akan
Selang kepercayaan
• Pada umumnya, sebaran
Θ
^akan memungkinkan kita
menghitung suatu nilai k sedemikian hingga
P(Θ
^-k < θ < Θ
^+ k)=1- α, 0<α<1.
•
Selang yang dihitung dari suatu cuplikan akan disebut
selang kepercayaan (1-α)100%. Dengan demikian, jika
α=0.05 kita akan memiliki 95% selang kepercayaan;
sedangkan
α=0.01 akan menghasilkan 99% selang
kepercayaan.
• Bagian atau fraksi (1-α) ini disebut juga koefisien
kepercayaan; sedangkan kedua titik ujungnya, yakni (θ
^-k)
Selang kepercayaan mean cuplikan
• Estimator titik dari mean populasi μ adalah statistik X. Sebaran
statistik ini berpusat pada μ dan variansinya lbh kecil dari estimator lain.
• Berdasarkan LCM, kita tahu bahwa semakin besar cuplikan akan menghasilkan variansi yang semakin kecil: σ2
X= σ2/n.
• Selang kepercayaan dari populasi tersebar normal, atau jika cuplikannya cukup besar, dapat diturunkan.
-zα/2 zα/2
1-α
α/2
α/2 z
• Dari gambar 6.3 disamping, P(-zα/2 <Z<zα/2) = 1 - α
dimana Z = (X-μ)/(σ/√n), dng demikian P(-zα/2 < (X-μ)/(σ/√n) <zα/2) = 1 - α
atau
P[ X - zα/2 (σ/√n) <μ<X+zα/2(σ/√n)] = 1 - α • Cuplikan acak berukuran n dari suatu populasi dengan variansi σ2 yang
diketahui dan mean x yang dihitung akan menghasilkan (1-α)100% selang kepercayaan
• SELANG KEPERCAYAAN UNTUK μ; σ DIKETAHUI. Suatu (1-α)100% selang kepercayaan untuk μ adalah
x - zα/2 (σ/√n) < μ < x+zα/2(σ/√n)
dimana x adalah mean cuplikan berukuran n dari suatu populasi dengan variansi σ2 yang diketahui dan z
α/2 adalah nilai sebaran normal
yang menghasilkan luas α/2 disebelah kanannya.
• Contoh 6.2: Mean dan simpangan baku dari IPK sekelompok 36 orang mahasiswa adalah 2.6 dan 0.3. Tentukan selang kepercayaan 95% dan 99% untuk nilai mean-nya.
• Jawab: Titik estimasi adalah x = 2.6. Karena cuplikan berukuran besar, simpangan baku σ dapat didekati dengan s=0.3. Nilai z yang
memberikan luas daerah dibawah kurva sebesar 0.025 disebelah kanan, atau 0.975 disebelah kiri, adalah z0.025 = 1.96 (dari Tabel IV). Oleh
karena itu, selang kepercayaan 95% adalah
2.6 - (1.96)(0.3/√36) < μ < 2.6 + (1.96)(0.3/√36) atau: 2.50 < μ < 2.70
• Dengan cara yang sama, selang kepercayaan 99% memerlukan z0.005 = 2.575 dan selang kepercayaan ini adalah:
2.6 - (2.575)(0.3/√36) < μ < 2.6 + (2.575)(0.3/√36) atau: 2.47 < μ < 2.73
Kesalahan estimasi
• Selang kepercayaan (1-α)% memberikan ketelitian estimasi
titik. Jika
μ adalah titik pusat selang, x mengestimasi μ tanpa
kesalahan.
• Pada umumnya akan ada kesalahan yang besarnya adalah beda
antara x dengan
μ, dan kita percaya (1-α)100% bahwa
perbedaan ini kurang dari z
α/2(σ/√n).
x
μ
x + z
α/2(σ/√n)
x - z
α/2(σ/√n)
error
• TEOREMA 6.1 Jika x digunakan sebagai estimasi dari
μ,
kita dapat percaya (1-α)100% bahwa nilai kesalahannya
akan kurang dari z
α/2(σ/√n)
• Pada contoh 6.2, kita percaya 95% bahwa mean cuplikan x=2.6
berbeda sebesar 0.1 dari nilai sebenarnya dan percaya 99%
• Seringkali kita ingin tahu seberapa besar cuplikan yang
kita inginkan untuk memastikan bahwa kesalahan estimasi
dari
μ kurang dari nilai tertentu e.
• Berdasarkan Teorema 6.1, kita harus memilih n
sedemikian hingga
zα/2(σ/√n)=e.• TEOREMA 6.2 Jika x dipakai untuk mengestimasi
μ, kita
dapat percaya (1-α)100% bahwa kesalahannya akan
kurang dari nilai e tertentu jika jumlah cuplikannya adalah:
n = (z
α/2σ/e)
2• Teorema diatas dapat diterapkan jika variansi populasi
diketahui, atau tersedia n≥30 untuk melakukan estimasi
variansi tsb.
Contoh 6.3
• Soal: Seberapa banyak jumlah cuplikan yang diperlukan pada
contoh 6.2 jika kita ingin percaya 95% bahwa estimasi
μ kita
kurang dari 0.05?
• Jawab: Simpangan baku cuplikan s=0.3 diperoleh dari cuplikan
asal 36 akan dipakai untuk menentukan
σ. Sebelumnya juga
telah diperoleh
z
α/2= 1.96, maka berdasarkan Teorema 6.2,
n = (z
α/2σ/e)
2= [(1.96)(0.3)/0.05]
2= 138.3
Dengan demikian, kita dapat percaya 95% percaya bahwa
cuplikan acak sebesar 139 akan memberikan hasil estimasi
x yang berbeda dibawah 0.05 dari
μ .
Cuplikan sedikit
• Bagaimana jika syarat n≥30 untuk
menghitung variansi populasi tidak dapt dipenuhi? Gunakan sebaran T sebagai ganti sebaran Gauss! disini
T =(X - μ)/(S/√n).
• Prosedur lain sama dengan yang
sebelumnya. -tα/2 tα/2
1-α
α/2
α/2 t
• Mengacu ke Gambar 6.5 diatas, nilai peluang pada daerah diarsir P(-tα/2 <T< tα/2 ) = 1- α
dimana tα/2 adalah nilai t untuk derajat bebas n-1. Luas sebelah kanan nilai ini adalah α/2, dan berdasarkan simetri, luas sebelah kiri dari -tα/2 juga α/2.
Substitusi untuk T menghasilkan
P(-tα/2 <(X - μ)/(S/√n)< tα/2 ) = 1- α
⇒ P(X – (tα/2S) /√n <μ<x + (tα/2S) /√n) = 1- α
dengan demikian, untuk n cuplikan, mean x dan simpangan baku s, interval kepercayaan (1-α)100% diberikan oleh
Selang kepercayaan saat n<30
• SELANG KEPERCAYAAN UNTUK μ; σ TAKDIKETAHUI. Suatu selang kepercayaan (1-α)100% untuk μ adalah
x - tα/2 (s/√n) < μ < x+tα/2(s/√n)
dimana x dan s adalah mean dan simpangan baku cuplikan berukuran n<30 dari suatu populasi yang tersebar mendekati normal, dan tα/2 adalah nilai sebaran-t dengan derajat bebas sebesar v = n-1 yang menghasilkan luas α/2 disebelah kanannya.
Contoh 6.4
• Soal: Ada 7 kontainer serupa yang berisi asam sulfat
dengan volume: 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, dan 9.6
liter. Tentukan selang kepercayaan 95% untuk mean dari
kontainer-2 tsb jika sebarannya mendekati normal.
• Jawab: Dari data yang diberikan, mean dan simpangan
cuplikan sbb:
x = 10.0
dan s= 0.283
Berdasarkan Tabel V, kita dapatkan t
0.025= 2.447 untuk
derajat bebas v=6. Karena itu, selang kepercayaan 95%
dair
μ adalah
10.0 - (2.447)(0.283/√7)< μ <10.0 + (2.447)(0.283/√7)
atau:
Pendahuluan
• Estimasi takbias dari variansi populasi σ2 diberikan oleh variansi
cuplikan s2, maka statistik S2 disebut estimator dari σ2.
• Selang estimasi dari σ2 diberikan oleh
X2 = (n-1)S2/σ2
Berdasarkan Teorema 5.16, statistik dari X2 akan tersebar secara
chi-kuadrat dengan derajat bebas n-1 saat cuplikan diambil dari populasi normal. 0 χ21-α/2 χ2 1-α α/2 α/2 χ2 1-α/2 • Berdasarkan Gambar 6.7 disamping, maka P ( χ2 1-α/2<X2<χ2α/2) = 1-α dimana χ2 1-α/2 dan χ2α/2 adalah
nilai dari sebaran chi-kuadrat dengan n-1 derajat bebas, dengan daerah seluas 1-α/2 disebelah kiri dan seluas α/2 di kanannya.
• Substitusi X2 = (n-1)S2/σ2 menghasilkan
P ( χ2
Selang kepercayaan
σ
2
• Pembagian dengan (n-1)S
2pada pertidaksamaan dan pengaturan
suku menghasilkan
P [ (n-1)S
2/χ
2α/2
< σ
2< (n-1)S
2/χ
21-α/2] = 1-α
Untuk cuplikan sejumlah n, variansi cuplikan sebesar s
2dan
(1-α)100% menghasilkan selang kepercayaan
(n-1)s
2/χ
2α/2< σ
2< (n-1)s
2/χ
21-α/2• SELANG KEPERCAYAAN UNTUK σ
2. Suatu selang
kepercayaan (1-α)100% untuk variansi σ
2dari populasi tersebar
normal adalah
(n-1)s
2/χ
2α/2< σ
2< (n-1)s
2/χ
21-α/2dimana s
2merupakan variansi dari pencuplikan acak berukuran
n, dan
χ
2α/2dan
χ
21-α/2menyatakan nilai sebaran chi-kuadrat
dengan derajat bebas v=n-1, sehingga luas disebelah kiri dan
kanannya adalah
α/2 dan 1- α/2.
Contoh 6.12
• Soal: Pencuplikan 10 buah kemasan berisi gabah (biji beras) produksi suatu perusahaan tertentu menghasilkan berat dalam decigram sbb: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2, dan 46.0 Tentukan selang kepercayaan 95% dari variansi berat kemasan tsb .
• Jawab: Tentukan terlebih dahulu variansi cuplikan, yaitu s2 = {(10)(21,273.12)-(461.2)2}/{(10)(9)} = 0.286
Untuk mendapatkan 95% selang kepercayaan, dipilih α=0.05. Lalu dengan Table VI untuk derajat bebas v=9, kita temukan χ2
0.025 =
19.023 dan χ2
0.975 = 2.700. Substitusi ke rumus
(n-1)s
2/χ
2α/2< σ
2< (n-1)s
2/χ
21-α/2akan menghasilkan 95% interval kepercayaan
[(9)(0.286)/19.023]< σ
2< [(9)(0.286)/2.700]
atau
Pengantar
• Metoda estimasi yang telah dijelaskan terdahulu didasarkan pada informasi dari cuplikan semata. Ini disebut sebagai peluang obyektif. • Metoda Bayes menggabungkan informasi dari cuplikan dengan
informasi lain yang diketahui atau prior. Yang demikian ini dinamakan
peluang subyektif.
• Ilustrasi: Akan ditentukan estimasi titik parameter θ dari populasi f(x; θ). Dalam pendekatan klasik (obyektif), maka yang dilakukan adalah mencuplik sebanyak n secara acak dan menggantikan informasi yang diperoleh ke estimator atau fungsi keputusan.
• Andaikan informasi tambahan tentang θ diberikan, misalnya bahwa sebarannya mengikuti f(θ). Fungsi f(θ) disebut sebagai sebaran prior dari parameter takdiketahui Θ yang menyatakan tingkat kepercayaan kita pada lokasi Θ sebelum diadakan pencuplikan.
• Teknik Bayesian menggunakan informasi prior f(θ) bersama dengan sebaran gabungan cuplikan f(x1,x2, …,xn; θ) untuk menghitung sebaran
Estimasi Bayes untuk
θ
• Selanjutnya f(x
1,x
2, …,x
n; θ) akan dituliskan sebagai f(x
1,x
2, …,
x
n|θ) untuk menandakan bahwa parameter Θ juga suatu peubah
acak. Sebaran gabungan peubah acak X
1, X
2, …, X
ndan
parameter Θ adalah
f(x
1,x
2, …,x
n; θ) = f(x
1,x
2, …,x
n|θ)f(θ)
Sehingga diperoleh sebaran marjinal
g(x
1,x
2, …,x
n) = Σ
θf(x
1,x
2, …,x
n; θ)
… (diskrit)
=
∫
-∞∞f(x
1,x
2, …,x
n; θ)d
θ
… (kontinyu)
Dengan demikian sebaran posterior-nya adalah
f(
θ|x
1,x
2, …,x
n) = f(x
1,x
2, …,x
n, θ)/g(x
1,x
2, …,x
n)
• DEFINISI 6.4. Nilai mean dari sebaran posterior f(θ|x
1,x
2, …,x
n),
yang dinyatakan sebagai
θ*, disebut sebagai estimasi Bayes dari θ.
Contoh 6.15
• Soal: dengan menggunakan cuplikan acak sebanyak 2 buah, lakukan estimasi perbandingan dari produk cacat p yang dibuat oleh sebuah mesin jika diketahui sebaran prior-nya adalah:
p | 0.1 0.2
---|---f(p) | 0.6 0.4
• Jawab: Andaikan X jumlah cacat didalam cuplikan, maka sebarannya adalah
f(x|p) = b(x;n,p) = C(2,x)pxq2-x ; x=0, 1, 2
Dari kenyataan bahwa f(x,p) = f(x|p)f(p), kita bisa membuat tabel berikut x f(x,p) p 0 1 2 0.1 0.486 0.108 0.006 0.2 0.256 0.128 0.016
Lanjutan …
• Dengan demikian, sebaran marjinal dari X adalah x | 0 1 2
---|---g(x) | 0.742 0.236 0.022
Kita bisa mendapatkan sebaran posterior dari formula f(p|x)=f(x,p)/g(x), yakni: p | 0.1 0.2 p | 0.1 0.2 ---|--- ---|---f(p|x=0) | 0.655 0.345 f(p|x=1) | 0.458 0.542 p | 0.1 0.2 ---|---f(p|x=2) | 0.273 0.727 akhirnya diperoleh: p* = (0.1)(0.655)+(0.2)(0.345) = 0.1345, jika x=0; = (0.1)(0.458)+(0.2)(0.542) = 0.1542, jika x=1; = (0.1)(0.273)+(0.2)(0.727) = 0.1727, jika x=2;