6. Teori Estimasi. EL2002-Probabilitas dan Statistik. Dosen: Andriyan B. Suksmono

(1)

6. Teori Estimasi

EL2002-Probabilitas dan Statistik

(2)

Pendahuluan

• Inferensi statistik adalah metoda untuk menarik inferensi

atau membuat generalisasi dari suatu populasi.

• Ada dua metoda penting:

– Klasik: inferensi hanya berdasar pada hasil yng diperoleh dari cuplikan acak populasi

– Bayesian: menggunakan pengetahuan prior subyektif mengenai sebaran populasi sebagai tambahan terhadap informasi cuplikan populasi.

• Inferensi ada dua kategori:

– Estimasi: Mis. Pengambilan 100 cuplikan untuk mengetahui sebaran perolehan kandidat beberapa calon Walikota Bandung. Pengetahuan ttg sebaran cuplikan akan membantu mendapatkan derajat kepercayaan hasil estimasi.

– Uji hipotesa: Mis. Seorang ibu rumah tangga menganggap sabun merek A lebih baik dari merek B. Setelah beberapa pengujian, akan disimpulkan hipotesanya dapat diterima atau ditolak.

(3)

(4)

Ruang keputusan

• Estimasi dari populasi dapat berupa estimasi titik atau estimasi selang. • Estimasi titik dari parameter θ adalah suatu nilai tunggal θ^ dari

statistik Θ^.

– Contoh: nilai x dari statistik X yng dihitung dari n-buah cuplikan dari populasi merupakan estimasi parameter μ dari populasi.

• (Besaran) Statistik yang dipakai seseorang untuk menentukan estimasi titik disebut estimator atau fungsi keputusan.

– Dngan demikian, keputusan S yang merupakan fungsi dari cuplikan acak adalah estimator dari σ dan estimasi s adalah tindakan yang diambilnya.

• DEFINISI 6.1 Himpunan semua tindakan yang mungkin, yang dapat diambil dalam permasalahan estimasi disebut sebagai ruang tindakan atau ruang keputusan.

• Estimator selalu memberikan kesalahan. Untuk suatu cuplikan tertentu, mis. 2, 5, 11, estimasi dari μ dpt menghasilkan x=6 jika dipakai mean cuplikan atau x~_{=5 jika dipakai median. Disini X}~ _{menghasilkan nilai}

yng lebih baik. Sebaliknya, cuplikan 2, 6, 7 memberikan x=5 dan x~₌₆

(5)

Estimator takbias dan estimator efisien

• Misalkan Θ^ _{adalah estimator yang nilai} θ^_{-nya adalah estimasi titik}

dari parameter populasi tak diketahui θ. Tentu diinginkan bahwa

sebaran cuplikan Θ^ _{akan memiliki mean yang sama dengan parameter}

yng diestimasi. Parameter yng spt ini disebut bersifat takbias.

• DEFINISI 6.2 Suatu statistik

Θ

^

disebut estimator takbias dari

parameter θ jika μ

_Θ

= E(Θ

^

)= θ.

• Dapat ditunjukkan (lihat buku) bahwa S2 _{adalah estimator takbias dari}

σ2, akan tetapi S sendiri adalah estimator σ yang bias.

^₁

disebut lebih efisian daripada

Θ

^₂

.

• DEFINISI 6.3 Estimator dengan nilai variansi terkecil disebut

sebagai estimator yang paling efisien.

(6)

Pemilihan estimator

• Dari ketiga estimator diatas, Θ^

1 dan Θ^2 bersifat takbias karena sebarannya

memusat di satu nilai θ.

• Dari kedua estimator tak bias tersebut, Θ^

1 lebih efisien karena variansinya

terkecil. Dengan demikian kita akan memilih Θ^

1 sebagai estimator.

Θ

^ 1

Θ

^ 2

Θ

^ 3

θ

^

(7)

Selang estimasi

• Selang estimasi dari parameter populasi

θ adalah interval yang

berbentuk

θ

^₁

<θ<θ

^₂,

dimana kedua batasnya tergantung pada

statistik

Θ

^

suatu cuplikan dan juga sebarannya.

• Dari sebaran cuplikan

Θ

^

kita akan dapat menentukan

θ

^₁

dan

θ

^

2

sedemikian hingga P(Θ

^1

< θ<Θ

^2

) sama dengan nilai tertentu

yang diinginkan.

• Untuk P(Θ

^

1

< θ<Θ

^2

)=0.95 berarti bahwa kita memiliki peluang

0.95 untuk memilih cuplikan acak yang menghasilkan interval

tsb mengandung

θ. Selang ini disebut juga selang kepercayaan

(confident interval). Artinya:

– Kita percaya 95% bahwa selang yang kita pilih akan mengandung parameter populasi yang sebenarnya.

– Memperbesar peluang (derajat kepercayaan) menjadi 99% belum tentu memberikan informasi yang lebih baik karena akan

(8)

Selang kepercayaan

• Pada umumnya, sebaran

_-k)

(9)

(10)

Selang kepercayaan mean cuplikan

• Estimator titik dari mean populasi μ adalah statistik X. Sebaran

statistik ini berpusat pada μ dan variansinya lbh kecil dari estimator lain.

• Berdasarkan LCM, kita tahu bahwa semakin besar cuplikan akan menghasilkan variansi yang semakin kecil: σ2

X= σ2/n.

• Selang kepercayaan dari populasi tersebar normal, atau jika cuplikannya cukup besar, dapat diturunkan.

-z_α/2 z_α/2

1-α

α/2

α/2 z

• Dari gambar 6.3 disamping, P(-z_α/2 <Z<z_α/2) = 1 - α

dimana Z = (X-μ)/(σ/√n), dng demikian P(-z_α/2 < (X-μ)/(σ/√n) <z_α/2) = 1 - α

atau

P[ X - z_α/2 (σ/√n) <μ<X+z_α/2(σ/√n)] = 1 - α • Cuplikan acak berukuran n dari suatu populasi dengan variansi σ2 _yang

diketahui dan mean x yang dihitung akan menghasilkan (1-α)100% selang kepercayaan

(11)

• SELANG KEPERCAYAAN UNTUK μ; σ DIKETAHUI. Suatu (1-α)100% selang kepercayaan untuk μ adalah

x - z_α/2 (σ/√n) < μ < x+z_α/2(σ/√n)

dimana x adalah mean cuplikan berukuran n dari suatu populasi dengan variansi σ2 _{yang diketahui dan z}

α/2 adalah nilai sebaran normal

yang menghasilkan luas α/2 disebelah kanannya.

• Contoh 6.2: Mean dan simpangan baku dari IPK sekelompok 36 orang mahasiswa adalah 2.6 dan 0.3. Tentukan selang kepercayaan 95% dan 99% untuk nilai mean-nya.

• Jawab: Titik estimasi adalah x = 2.6. Karena cuplikan berukuran besar, simpangan baku σ dapat didekati dengan s=0.3. Nilai z yang

memberikan luas daerah dibawah kurva sebesar 0.025 disebelah kanan, atau 0.975 disebelah kiri, adalah z_0.025 = 1.96 (dari Tabel IV). Oleh

karena itu, selang kepercayaan 95% adalah

2.6 - (1.96)(0.3/√36) < μ < 2.6 + (1.96)(0.3/√36) atau: 2.50 < μ < 2.70

(12)

• Dengan cara yang sama, selang kepercayaan 99% memerlukan z_0.005 = 2.575 dan selang kepercayaan ini adalah:

2.6 - (2.575)(0.3/√36) < μ < 2.6 + (2.575)(0.3/√36) atau: 2.47 < μ < 2.73

(13)

Kesalahan estimasi

• Selang kepercayaan (1-α)% memberikan ketelitian estimasi

titik. Jika

μ adalah titik pusat selang, x mengestimasi μ tanpa

kesalahan.

• Pada umumnya akan ada kesalahan yang besarnya adalah beda

antara x dengan

μ, dan kita percaya (1-α)100% bahwa

perbedaan ini kurang dari z

_α/2

(σ/√n).

x

μ

x + z

_α_/2

(σ/√n)

x - z

_α_/2

(σ/√n)

error

• TEOREMA 6.1 Jika x digunakan sebagai estimasi dari

μ,

kita dapat percaya (1-α)100% bahwa nilai kesalahannya

akan kurang dari z

_α/2

(σ/√n)

• Pada contoh 6.2, kita percaya 95% bahwa mean cuplikan x=2.6

berbeda sebesar 0.1 dari nilai sebenarnya dan percaya 99%

(14)

• Seringkali kita ingin tahu seberapa besar cuplikan yang

kita inginkan untuk memastikan bahwa kesalahan estimasi

dari

μ kurang dari nilai tertentu e.

• Berdasarkan Teorema 6.1, kita harus memilih n

sedemikian hingga

z_α/2(σ/√n)=e.

• TEOREMA 6.2 Jika x dipakai untuk mengestimasi

μ, kita

dapat percaya (1-α)100% bahwa kesalahannya akan

kurang dari nilai e tertentu jika jumlah cuplikannya adalah:

n = (z

_α/2

σ/e)

2

• Teorema diatas dapat diterapkan jika variansi populasi

diketahui, atau tersedia n≥30 untuk melakukan estimasi

variansi tsb.

(15)

Contoh 6.3

• Soal: Seberapa banyak jumlah cuplikan yang diperlukan pada

contoh 6.2 jika kita ingin percaya 95% bahwa estimasi

μ kita

kurang dari 0.05?

• Jawab: Simpangan baku cuplikan s=0.3 diperoleh dari cuplikan

asal 36 akan dipakai untuk menentukan

σ. Sebelumnya juga

telah diperoleh

z

_α/2

= 1.96, maka berdasarkan Teorema 6.2,

n = (z

_α/2

σ/e)

2

= [(1.96)(0.3)/0.05]

2

= 138.3

Dengan demikian, kita dapat percaya 95% percaya bahwa

cuplikan acak sebesar 139 akan memberikan hasil estimasi

x yang berbeda dibawah 0.05 dari

μ .

(16)

Cuplikan sedikit

• Bagaimana jika syarat n≥30 untuk

menghitung variansi populasi tidak dapt dipenuhi? Gunakan sebaran T sebagai ganti sebaran Gauss! disini

T =(X - μ)/(S/√n).

• Prosedur lain sama dengan yang

sebelumnya. -tα/2 tα/2

1-α

α/2

α/2 t

• Mengacu ke Gambar 6.5 diatas, nilai peluang pada daerah diarsir P(-t_α/2 <T< t_α/2 ) = 1- α

dimana t_α/2 adalah nilai t untuk derajat bebas n-1. Luas sebelah kanan nilai ini adalah α/2, dan berdasarkan simetri, luas sebelah kiri dari -t_α/2 juga α/2.

Substitusi untuk T menghasilkan

P(-t_α/2 <(X - μ)/(S/√n)< t_α/2 ) = 1- α

⇒ P(X – (t_α/2S) /√n <μ<x + (t_α/2S) /√n) = 1- α

dengan demikian, untuk n cuplikan, mean x dan simpangan baku s, interval kepercayaan (1-α)100% diberikan oleh

(17)

Selang kepercayaan saat n<30

• SELANG KEPERCAYAAN UNTUK μ; σ TAKDIKETAHUI. Suatu selang kepercayaan (1-α)100% untuk μ adalah

x - t_α/2 (s/√n) < μ < x+t_α/2(s/√n)

dimana x dan s adalah mean dan simpangan baku cuplikan berukuran n<30 dari suatu populasi yang tersebar mendekati normal, dan t_α/2 adalah nilai sebaran-t dengan derajat bebas sebesar v = n-1 yang menghasilkan luas α/2 disebelah kanannya.

(18)

Contoh 6.4

• Soal: Ada 7 kontainer serupa yang berisi asam sulfat

dengan volume: 9.8, 10.2, 10.4, 9.8, 10.0, 10.2, dan 9.6

liter. Tentukan selang kepercayaan 95% untuk mean dari

kontainer-2 tsb jika sebarannya mendekati normal.

• Jawab: Dari data yang diberikan, mean dan simpangan

cuplikan sbb:

x = 10.0

dan s= 0.283

Berdasarkan Tabel V, kita dapatkan t

_0.025

= 2.447 untuk

derajat bebas v=6. Karena itu, selang kepercayaan 95%

dair

μ adalah

10.0 - (2.447)(0.283/√7)< μ <10.0 + (2.447)(0.283/√7)

atau:

(19)

(20)

Pendahuluan

• Estimasi takbias dari variansi populasi σ2 _{diberikan oleh variansi}

cuplikan s2_{, maka statistik S}2 _{disebut estimator dari} σ2_.

• Selang estimasi dari σ2 _{diberikan oleh}

X2 _{= (n-1)S}2/σ2

Berdasarkan Teorema 5.16, statistik dari X2 _{akan tersebar secara}

chi-kuadrat dengan derajat bebas n-1 saat cuplikan diambil dari populasi normal. 0 χ2_1-α/2 χ2 1-α α/2 α/2 χ2 1-α/2 • Berdasarkan Gambar 6.7 disamping, maka P ( χ2 1-α/2<X2<χ2α/2) = 1-α dimana χ2 1-α/2 dan χ2α/2 adalah

nilai dari sebaran chi-kuadrat dengan n-1 derajat bebas, dengan daerah seluas 1-α/2 disebelah kiri dan seluas α/2 di kanannya.

• Substitusi X2 _{= (n-1)S}2/σ2 _menghasilkan

P ( χ2

(21)

Selang kepercayaan

σ

2 • Pembagian dengan (n-1)S

2

pada pertidaksamaan dan pengaturan

suku menghasilkan

P [ (n-1)S

2

/χ

2

α/2

< σ

2

< (n-1)S

2

/χ

21-α/2

] = 1-α

Untuk cuplikan sejumlah n, variansi cuplikan sebesar s

2

dan

(1-α)100% menghasilkan selang kepercayaan

_{. Suatu selang}

kepercayaan (1-α)100% untuk variansi σ

2

_{dari populasi tersebar}

normal adalah

dan

χ

2_1-α/2

menyatakan nilai sebaran chi-kuadrat

dengan derajat bebas v=n-1, sehingga luas disebelah kiri dan

kanannya adalah

α/2 dan 1- α/2.

(22)

Contoh 6.12

• Soal: Pencuplikan 10 buah kemasan berisi gabah (biji beras) produksi suatu perusahaan tertentu menghasilkan berat dalam decigram sbb: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2, dan 46.0 Tentukan selang kepercayaan 95% dari variansi berat kemasan tsb .

• Jawab: Tentukan terlebih dahulu variansi cuplikan, yaitu s2 _{= {(10)(21,273.12)-(461.2)}2_{}/{(10)(9)} = 0.286}

Untuk mendapatkan 95% selang kepercayaan, dipilih α=0.05. Lalu dengan Table VI untuk derajat bebas v=9, kita temukan χ2

0.025 =

19.023 dan χ2

[(9)(0.286)/19.023]< σ

2

_{< [(9)(0.286)/2.700]}

atau

(23)

(24)

Pengantar

• Metoda estimasi yang telah dijelaskan terdahulu didasarkan pada informasi dari cuplikan semata. Ini disebut sebagai peluang obyektif. • Metoda Bayes menggabungkan informasi dari cuplikan dengan

informasi lain yang diketahui atau prior. Yang demikian ini dinamakan

peluang subyektif.

• Ilustrasi: Akan ditentukan estimasi titik parameter θ dari populasi f(x; θ). Dalam pendekatan klasik (obyektif), maka yang dilakukan adalah mencuplik sebanyak n secara acak dan menggantikan informasi yang diperoleh ke estimator atau fungsi keputusan.

• Andaikan informasi tambahan tentang θ diberikan, misalnya bahwa sebarannya mengikuti f(θ). Fungsi f(θ) disebut sebagai sebaran prior dari parameter takdiketahui Θ yang menyatakan tingkat kepercayaan kita pada lokasi Θ sebelum diadakan pencuplikan.

• Teknik Bayesian menggunakan informasi prior f(θ) bersama dengan sebaran gabungan cuplikan f(x₁,x₂, …,x_n; θ) untuk menghitung sebaran

(25)

Estimasi Bayes untuk

θ

• Selanjutnya f(x

₁

,x

₂

, …,x

_n

; θ) akan dituliskan sebagai f(x

₁

,x

₂

, …,

x

_n

|θ) untuk menandakan bahwa parameter Θ juga suatu peubah

; θ)

… (diskrit)

=

∫

_-∞∞

f(x

₁

,x

₂

, …,x

_n

; θ)d

θ

… (kontinyu)

, …,x

_n

)

• DEFINISI 6.4. Nilai mean dari sebaran posterior f(θ|x

₁

,x

₂

, …,x

_n

),

yang dinyatakan sebagai

θ*, disebut sebagai estimasi Bayes dari θ.

(26)

Contoh 6.15

• Soal: dengan menggunakan cuplikan acak sebanyak 2 buah, lakukan estimasi perbandingan dari produk cacat p yang dibuat oleh sebuah mesin jika diketahui sebaran prior-nya adalah:

p | 0.1 0.2

---|---f(p) | 0.6 0.4

• Jawab: Andaikan X jumlah cacat didalam cuplikan, maka sebarannya adalah

f(x|p) = b(x;n,p) = C(2,x)px_q2-x _{; x=0, 1, 2}

Dari kenyataan bahwa f(x,p) = f(x|p)f(p), kita bisa membuat tabel berikut x f(x,p) p ₀ ₁ ₂ 0.1 0.486 0.108 0.006 0.2 0.256 0.128 0.016

(27)

Lanjutan …

• Dengan demikian, sebaran marjinal dari X adalah x | 0 1 2

---|---g(x) | 0.742 0.236 0.022

Kita bisa mendapatkan sebaran posterior dari formula f(p|x)=f(x,p)/g(x), yakni: p | 0.1 0.2 p | 0.1 0.2 ---|--- ---|---f(p|x=0) | 0.655 0.345 f(p|x=1) | 0.458 0.542 p | 0.1 0.2 ---|---f(p|x=2) | 0.273 0.727 akhirnya diperoleh: p* = (0.1)(0.655)+(0.2)(0.345) = 0.1345, jika x=0; = (0.1)(0.458)+(0.2)(0.542) = 0.1542, jika x=1; = (0.1)(0.273)+(0.2)(0.727) = 0.1727, jika x=2;

(28)