第四章 数据统计与分析 86
4.1 基本统计分析
4.1.4 标准差及其应用
班级 1 2 3 4 5 6
大陆流
行歌曲 儿歌 欧美流 行歌曲
港台流
行歌曲 世界名曲 中国民歌 其他 60
44 37 38 30 33
9 5 7 2 2 5
55 52 45 53 36 40
54 47 46 49 29 47
67 62 38 56 31 49
26 18 8 6 6 15
39 38 28 25 20 26
表4-3 各兴趣爱好人数统计表
判断手表优劣的方法是首先统一设定起点时间,过一段时间后,比较手表走的 时间与标准时间之间的误差。误差越大,手表的质量越差。为了检验甲乙两种品牌 手表质量的优劣,随机抽取甲、乙两种品牌手表各10块,发现它们与标准时间的误 差如表4-4所示。(+为快,-为慢)
4.1.4.1 问题的引入
表4-4 甲乙两种品牌手表的误差时间
甲(分) +1 0 0 0 0 0 0 0 0 -1 乙(分) +2 +1 +1 0 0 0 0 -1 -1 -2
想一想,使用什么方法对这些数据进行处理,从而判断出手表的质量呢?
假设标准时间是 a
0,每块手表的时间是 a
1, a
2,…, a
10,判断手表的快慢可 以比较 |a
1- a
0|,|a
2- a
0| ,…,|a
10- a
0| 的平均值,也就是比较两种品牌手表的 值的大小。由于 |a
i- a
0| 与(a
i- a
0)
2成正比,所以,只要比较 的大小即可。利用这种方法比较甲乙两种品牌手表的质量可 以得到如表 4-5 所示的结果。
|a
i- a
0| 10
10
∑
i=1(a
i- a
0)
210
10
∑
i=14.1.4.2 标准差
甲 乙
表4-5 甲乙两种品牌手表比较
12=1 22=4
02=0 12=1
02=0 12=1
02=0 02=0
02=0 02=0
02=0 02=0
02=0 02=0
02=0 (-1)2=1
02=0 (-1)2=1
(-1)2=1 (-2)2=4
0.2 1.2
编号 1 2 3 4 5 6 7 8 9 10 平均值
编号 1 2 3 4 5 6 7 8 9 10 平均值
(ai-a0)2 (ai-a0)2
由表 4-5 可以看出,甲品牌各块手表的误差平均值小于乙品牌各块手 表的误差平均值,所以甲的质量优于乙。
在统计中,常常用到标准差的概念。计算 a
1, a
2, a
3…, a
n的标准差的公式是:
s = 。其中 a
i是各个数据的值, a 是 a
1, a
2,…,a
n的平均值,
n是数据的个数。标准差是统计学上用来比较一组数据的差异性的最常用的 统计量,它以 a 为中心来计算一组数据距离平均值的远近。当数据都等于 平均值的时候,标准差等于 0。否则,标准差必然大于 0。数据分布越分散,
标准差越大。反过来,标准差越大,表示该组数据越分散。对于 4.1.4.1 部 分“问题引入”中甲乙两种品牌手表的质量,可以通过比较标准差进行分 析,从而可以得到s
甲<s
乙,说明甲品牌手表的平均误差要比乙品牌手表的平 均误差小,因此得到甲品牌手表的质量优于乙品牌手表的质量的结论。
在 SQL 语言中,利用函数 StDev 求标准差,使用方法和其他函数的类 似。下面以统计“学生成绩”数据库中各班总分的标准差为例进行说明。
求各班总分的标准差时,需要先求出各班每位同学的总分,保存为“每 人总分” (具体操作略) 。然后,以班为单位求出标准差,保存为“每班总分 标准差” 。SQL 命令如图 4-17 所示。统计结果如图 4-18 所示。
-
- (a
i- a)
2n
n
∑
i=1-
在图 4-18 所示结果的基础上,统计其中的最小值,可以得出 9 个班中
08106 班总分的标准差最小。
图4-17 求各班总分的标准差
图4-18 各班总分的标准差
标准差是反 映一组数据离散 程度最常用的一 种量化形式。在 科学实验中,每 一次的测量值总 是或多或少有误 差,所以要进行 大量的实验,使 实验在一定的条 件下具有普遍性。
当这些实验结果 的离散程度在一 定的范围之内时,
这项实验才是成 功的。因此,标准 差也被大量地应 用到科学实验结 果统计中。
通过标准差可以看出一组数据的分布情况。 但要了解其中某个数据在这 组数据中所处的位置还要用到标准分 Z,公式如下:
4.1.4.3 标准分
在“学生成绩”数据库中,分析王小惠的总成绩在全年级所有同学的总成绩中 处在什么位置上。
x - x z= s -
其中,x 是这组数据的平均值,s 是这组数据的标准差,x 为该数据。
由于标准分是原数据减去平均分再除以标准差,它是与平均分进行比 较,所以该数据在全体数据中的位置就一目了然。
可以发现,当某个数据正好是所在组数据的平均值时,它的标准分为 零,当该数据小于平均分时,它的标准分小于零,该数据大于平均分时,它 的标准分大于零。
下面以计算“学生成绩”数据库中王小惠同学的标准分为例进行说明。
具体步骤如下。
(1)统计所有同学的总分平均分,把这个统计命名为“总分平均分” 。
(2)统计所有同学的总分标准差,把这个统计命名为“总分标准差” 。
-
图4-20 王小惠同学的分数在所有同学 分数中所处的位置
351.230 406.060 460.890