• Tidak ada hasil yang ditemukan

标准差及其应用

Dalam dokumen 数据管理技术 (Halaman 104-107)

第四章 数据统计与分析 86

4.1 基本统计分析

4.1.4 标准差及其应用

班级 1 2 3 4 5 6

大陆流

行歌曲 儿歌 欧美流 行歌曲

港台流

行歌曲 世界名曲 中国民歌 其他 60

44 37 38 30 33

9 5 7 2 2 5

55 52 45 53 36 40

54 47 46 49 29 47

67 62 38 56 31 49

26 18 8 6 6 15

39 38 28 25 20 26

4-3 各兴趣爱好人数统计表

判断手表优劣的方法是首先统一设定起点时间,过一段时间后,比较手表走的 时间与标准时间之间的误差。误差越大,手表的质量越差。为了检验甲乙两种品牌 手表质量的优劣,随机抽取甲、乙两种品牌手表各10块,发现它们与标准时间的误 差如表4-4所示。(+为快,-为慢)

4.1.4.1 问题的引入

4-4 甲乙两种品牌手表的误差时间

甲(分) +1 0 0 0 0 0 0 0 0 -1 乙(分) +2 +1 +1 0 0 0 0 -1 -1 -2

想一想,使用什么方法对这些数据进行处理,从而判断出手表的质量呢?

假设标准时间是 a

0

,每块手表的时间是 a

1

, a

2

,…, a

10

,判断手表的快慢可 以比较 |a

1

- a

0

|,|a

2

- a

0

| ,…,|a

10

- a

0

| 的平均值,也就是比较两种品牌手表的 值的大小。由于 |a

i

- a

0

| 与(a

i

- a

0

)

2

成正比,所以,只要比较 的大小即可。利用这种方法比较甲乙两种品牌手表的质量可 以得到如表 4-5 所示的结果。

|a

i

- a

0

| 10

10

i=1

(a

i

- a

0

)

2

10

10

i=1

4.1.4.2 标准差

甲 乙

4-5 甲乙两种品牌手表比较

12=1 22=4

02=0 12=1

02=0 12=1

02=0 02=0

02=0 02=0

02=0 02=0

02=0 02=0

02=0 (-1)2=1

02=0 (-1)2=1

(-1)2=1 (-2)2=4

0.2 1.2

编号 1 2 3 4 5 6 7 8 9 10 平均值

编号 1 2 3 4 5 6 7 8 9 10 平均值

(ai-a0)2 (ai-a0)2

由表 4-5 可以看出,甲品牌各块手表的误差平均值小于乙品牌各块手 表的误差平均值,所以甲的质量优于乙。

在统计中,常常用到标准差的概念。计算 a

1

, a

2

, a

…, a

n

的标准差的公式是:

s = 。其中 a

i

是各个数据的值, a 是 a

1

, a

2

,…,a

n

的平均值,

n是数据的个数。标准差是统计学上用来比较一组数据的差异性的最常用的 统计量,它以 a 为中心来计算一组数据距离平均值的远近。当数据都等于 平均值的时候,标准差等于 0。否则,标准差必然大于 0。数据分布越分散,

标准差越大。反过来,标准差越大,表示该组数据越分散。对于 4.1.4.1 部 分“问题引入”中甲乙两种品牌手表的质量,可以通过比较标准差进行分 析,从而可以得到s

<s

,说明甲品牌手表的平均误差要比乙品牌手表的平 均误差小,因此得到甲品牌手表的质量优于乙品牌手表的质量的结论。

在 SQL 语言中,利用函数 StDev 求标准差,使用方法和其他函数的类 似。下面以统计“学生成绩”数据库中各班总分的标准差为例进行说明。

求各班总分的标准差时,需要先求出各班每位同学的总分,保存为“每 人总分” (具体操作略) 。然后,以班为单位求出标准差,保存为“每班总分 标准差” 。SQL 命令如图 4-17 所示。统计结果如图 4-18 所示。

- (a

i

- a)

2

n

n

i=1

在图 4-18 所示结果的基础上,统计其中的最小值,可以得出 9 个班中

08106 班总分的标准差最小。

4-17 求各班总分的标准差

4-18 各班总分的标准差

标准差是反 映一组数据离散 程度最常用的一 种量化形式。在 科学实验中,每 一次的测量值总 是或多或少有误 差,所以要进行 大量的实验,使 实验在一定的条 件下具有普遍性。

当这些实验结果 的离散程度在一 定的范围之内时,

这项实验才是成 功的。因此,标准 差也被大量地应 用到科学实验结 果统计中。

通过标准差可以看出一组数据的分布情况。 但要了解其中某个数据在这 组数据中所处的位置还要用到标准分 Z,公式如下:

4.1.4.3 标准分

在“学生成绩”数据库中,分析王小惠的总成绩在全年级所有同学的总成绩中 处在什么位置上。

x - x z= s -

其中,x 是这组数据的平均值,s 是这组数据的标准差,x 为该数据。

由于标准分是原数据减去平均分再除以标准差,它是与平均分进行比 较,所以该数据在全体数据中的位置就一目了然。

可以发现,当某个数据正好是所在组数据的平均值时,它的标准分为 零,当该数据小于平均分时,它的标准分小于零,该数据大于平均分时,它 的标准分大于零。

下面以计算“学生成绩”数据库中王小惠同学的标准分为例进行说明。

具体步骤如下。

(1)统计所有同学的总分平均分,把这个统计命名为“总分平均分” 。

(2)统计所有同学的总分标准差,把这个统计命名为“总分标准差” 。

4-20 王小惠同学的分数在所有同学 分数中所处的位置

351.230 406.060 460.890

Dalam dokumen 数据管理技术 (Halaman 104-107)