§2 数理统计方法
一、 总体参数的估计
1、总体(母体)与样本(子样)
研究某个问题,它的对象的所有可能观测结果称为总体(或母体),记作。总体中抽 取一部分样品x1,x2,,xn称为总体的一个样本(或子样)。样本中样品的个数称为样本的大小
(或容量)。n30,可以认为是大样本,否则称为小样本。
数理统计方法就是应用概率论的结果,通过样本来了解和判断总体的统计特性的科学方 法。
2、 样本特征数与总体数字特征对照表
名 称 样本特征数 总体数字特征
均 值
n
k
xk
x n
1
1 E
方 差
n
k
k x
n x s
1
2
2 ( )
1
1 2 D
标准差
n
k
k x
n x s
1
)2
1 (
1 D
变异系数 x
Cv s
E C D
偏态系数 1 3
)3
( ) 2 )(
1
( s
x x n
n C n
n
k k s
3
3
)
(
Cs D
峰态系数
4 2
1
2 4 1
4 2
) (
) 3 )(
2 )(
1 (
) 3 2 ( 3
) (
) 3 )(
2 )(
1 (
3 2
s x x n
n n n
n
s x x n
n n
n C n
n
k k n
k k e
) 3
( 2
4
Ce D
注意,1° 当n较大时,取
n
k
k x
n x s
1
2
2 1 ( )
(有时称此s2为样本方差,而称表中的s2为样本修正方差)
3 1
)3
( 3 1
s x x C n
n
k k s
4 2
1
2
2 3 4
1
4
2
) (
6 11 6
) 6 (
11 6
2
s x x n
n n s
x x n
n C n
n
k k n
k k e
2° 样本特征系数还有:
样本r阶原点矩
n
k r
xk
n 1 1
样本阶中心矩
n
k
r
k x
n 1 x
) 1 (
样本中位数
2 1 1
xn (样本大小n为奇数)
样本均差
n
k
k x
n 1 x 1
样本极差
k n k kn
k x x
1
1 m i n
m a x 3、总体参数的点估计
记x1 ,x2 ,···,xn是从总体中取出的一个样本,可用样本的特征数来估计总体的数字特征。
其常用方法有以下两种:
[矩法] 矩法是用样本的r阶矩作为总体r阶矩的估值。具体步骤如下:
设 的分布函数包含k个参数1,2,,k(其取值未知),记作F(x,1,2,,k)。假定 的k阶原点矩存在,它们自然是1,2,,k的函数,即
) , , , , ( d )
, , ,
( 1 2 k r 1 2 k
r
r v x F x
v
(r=1,2,···,k) 考虑总体的一个样本x1,x2,,xn作出这一样本的r阶矩ˆr,即ˆr=1 ( 1,2, , )
1
k r
n x
n
i r
i
然后解方程组
vr(1,2,k)=ˆr (r=1,2,···,k) 记所得的解为
ˆ ˆ( , , , ), ,ˆ ˆ ( , , , )
2 2
1
1 x x xn k k x1 x xn
用ˆ ,ˆ , ,ˆk
2
1 分别作为1,2,,k的估值。
[最大似然法] 设总体的分布是连续型的,分布密度函数为 p(x,1,2,,k),其中
k
1, 2,, 是待估计的未知参数。对于给定的x1,x2,,xn使函数 ( , 1, 2, , )
1
k n
i
xi
p
达到最大 值的ˆ ,ˆ , ,ˆk
2
1 ,并用它们分别作为1,2,,k的估值。
由于 ln ( , 1, 2, , )
1
k n
i
xi
p
与 ( , 1, 2, , )
1
k n
i
xi
p
在同一点(ˆ ,ˆ , ,ˆk
2
1 )上达到最大值,
因此,引入函数
L(1,2,,k)=ln ( , 1, 2, , )
1
k n
i
xi
p
= ln ( ,
1
ni
xi
p 1,2,,k) 它称为似然函数。只要解方程组
0
i
L
(i=1,2,···,k) 就可以从中确定所要求的ˆ ,ˆ , ,ˆk
2
1 ,它们分别称为参数1,2,,k的最大似然估计值。
如果总体的分布是离散型的,只要把上述似然函数中的p(xi,1,2,,k)取为P( xi)就 可以了。
例 正态总体的参数估计,假定已知总体遵从正态分布 N(,2),但参数,2未知。现 在要用总体的n次观测值x1 , x2 ,···, xn求,2的最大似然估值。
解 因为总体的分布密度函数为
2
2
2 ) (
2 ) 1 , ,
(
x
e x
p 因此,似然函数为
ln2
ln 2 )
2 ( ) 1 , (
1
2 2
n n x
L
n
i
i
解方程组
0 0
L L
得
n
i
xi
x n
1
ˆ 1
ˆ
n
i
i x
n 1 x
2
2 1 ( )
容易检验ˆ,ˆ2确实使L(,)取到最大值。因此它们分别是,2的最大似然估值。
[估值好坏的判别标准]
1° 无偏性 如果参数的估值 ˆ (
n x1 , x2 ,···, xn)满足关系式 Eˆn
则称ˆn是的无偏估值。
2° 有效性 如果ˆ和ˆ都是参数的无偏估值。
DˆDˆ
则称ˆ比ˆ有效。进一步,如果固定样本的容量 n,使Dˆ极小值的无偏估值ˆ就称为的 有效估值。
3° 一致性 如果对任意给定的正数,总有 lim
ˆn
0n P
则称的估值ˆn是一致的。
由契贝谢夫不等式(见§1,三)易见,当 l i m ˆ 0
r
n En
对某r0成立时,ˆn是的一致估值。
在实用中,往往应用这一充分条件来验证ˆn是否是的一致估值。
例
总体分布 未知总体 参 数
总体参数估值 无偏性 有效性 一致性
) , (
) , (
) , (
) , (
) , (
) , (
) (
) , 1 (
2 2 2 2
e N N N N
b a u P
p B
2 2 2
2
, , , ,b a
p pˆ xˆ
x
ˆ
xn
b x aˆ 1,ˆ
x
ˆ
n
i
xi
n 1
2
2 1 ( )
ˆ
n
i
i x
n 1 x
2
2 1 ( )
ˆ
n
i
i x
n 1 x
2
2 ( )
1 ˆ 1
x
ˆ
有 有 有 有
有
有 有
有
有
有
有
有 有
有
有
有
有 4、样本的频率分布
频率分布较完整地反映实验数据的变化规律。建立频率分布的步骤(设样本为x1 ,x2 ,···, xn) 是:
(1) 找出最大值与最小值,求得极差Rmax
xi min
xi 。(2) 根据样本大小分组,通常大样本分成 1020 组,小样本分成 56 组,再根据组数k
和极差R决定组距c,如果按等距分组,则 c
k R。 (3) 确定分点(常取比原数据的精度高一位)。
(4) 数出各组的频率i。 (5) 计算频率
n
i
(6) 画直方图(分点为横坐标,频率与组距之比为纵坐标)。
(7) 如果变量是连续的,则描出光滑曲线,近似的代替总体的分布。
5、总体参数的区间估计
[小概率原理] 在一次试验中,概率很小(接近于零)的事件认为是实际上不可能发生的 事件;而概率接近于1的事件认为是实际上必然发生的事件。
[置信区间与显著性水平] 对总体参数(如,2)进行区间估计(即估计参数的取值范 围)时,如果对于预先给定的很小的概率,能找到一个区间(1,2),使得
) (1 2
P =1-
那末称区间(1,2)为参数的置信区间,1和2称为置信限(或临界值); 1和 2称 为否定域;概率称为显著性水平,1-称为置信水平(或置信概率)。
[总体参数的区间估计表] 假设总体遵从正态分布N( ,2)。对于预先给的显著性水平
,可用一个样本x1, x2 ,···,xn的均值x 和标准差s来估计总体的均值 和方差2的置信区间,
也可用两个样本
x11,x12,,x1n1
与
x21,x22,,x2n2
的均值x1,x2和标准差s1,s2来估计两总体均 值差12的置信区间。样本情况 总体参数 或2的置信区间 与置信区间有关的
,t ,2
K 与F的确定
大样本 已知总体方差
2
n K x n K x
2
2 ,
d 1
2 1
2
2
2
K 2 K
v
e
查正态分布表 大样本
总体方差未知
n K x n K x
2
2 , 同上
小样本 已知总体方差
2
n K x n K x
2 , 2 同上
小样本
总体方差未知
n s x t n
s
x t
,
t ( 1)d 1t t n v
查t分布表(自由度为n-1)
已知两总体的 方差12,22
,
( 0
2 2 2
1
xx K
2 2 2 1
1 2 0
0 2 2
1 )
n n
K x x
21 2 d 12
2
2
v e
K K
查正态分布表
两总体的方差 未 知
1 1 ,2 1 0 2 1 2
1 x x ts n n
2 1 0 2 1
1 1
n s n
t x
x
式中 2
) 1 ( ) 1 (
2 1
2 2 2 2 1 1
0
n n
s n s s n
t ( 1 2 2)d 1t t n n v
查t分布表
(自由度为n1 + n2-2 )
小样本 已知总体均值
, ) 1 (
1
2 2
2 2
n
i
xi
ni
xi 1
2 2
1
)
1 (
1222 2(n)dv 1查2分布表
(自由度为n)
小样本 总体均值未知
2 2
1 2 2 2
2 1
1 , n s n s
1222 2(n 1)dv 1查2分布表
(自由度为n1)
小样本 两总体的均值
与方差未知
), 1 , 1
( 1 2
2 2
2 1
2 2
2 1
n n F
s s
2 2
2 1 1
2 1, 1)
(
s n s n F
0FF(n11,n2 1)dv1 查F分布表(自由度为(n11,n2 1))
0FF(n2 1,n1 1)dv1 查F分布表(自由度为(n2 _-1,n1 –1))