数据组织的规范与过程

第三章数据应用与维护 57

2.1 数据组织

2.1.2 数据组织的规范与过程

在关系数据库中，如何组织数据才是最恰当的呢？

2.1.2.1 实例分析

下面以“学生兴趣爱好”的调查数据为例，分析如何把数据组织到关系数据库中，才能既满足数据库的要求，又方便以后的数据处理。

1. 一个数据存放在一个单元格中

我们分别存储学生的爱好，把爱好和爱好类别分别存放在单元格中，如表 2 - 3 所示。

表 2 - 2 把每个学生所有的爱好放在同一个单元格中，这样统计喜欢“电脑绘画”的人数时，就需要人工把爱好一个一个分离出来，很不方便。这样组织数据不利于今后的统计查询，因此它不是最佳的组织形式。

一般来说，将所有的数据组织到一个二维表中，不利于进一步的统计查询。

表2-3 分别存放爱好及爱好类别

针对表2-3中的数据，回答以下问题：

（1）以下信息各重复了多少次？

“301006 男初一 01 研究生东城”

“301011 男初一 01 本科北城”

“620763 男高一 07 大专南城”

（2）假设编号为620763的学生不再喜欢科技类书籍了，就需要删除这个记录。

删除该记录后，会造成其他信息丢失吗？丢失了什么信息？

出现以上问题的原因是：

_________________________________________________________________________

______________________________________________________________________________

在表 2 - 3 中，一个单元格只存放一个数据，虽然方便了数据的统计分析，但同时也带来了新的问题。如果一个学生有多个爱好，他的基本情况就会重复多次，导致了数据冗余。此外，在表 2 - 3 中删除编号为 620763 的学生的爱好时，会同时删除该学生的性别、年级、班级、家庭所在区县等信息，可能会造成其他信息丢失，这种现象称为“删除异常” 。

2. 消除数据冗余

组织数据时要考虑的第二个问题就是尽量消除数据冗余。把表 2 - 3 中

数据的重复存储称为数据冗余。数据冗余会导致存储空间的浪费，以及数据的不一致，即当同一个数据被存储在多处时，一个地方的数据改变了，而另一个地方的数据却没有及时更改。

301011 男初一 01 本科北城电脑绘画绘画 301011 男初一 01 本科北城博物馆旅游 301011 男初一 01 本科北城古迹旅游 301011 男初一 01 本科北城人文景观旅游 301011 男初一 01 本科北城游乐园旅游 301011 男初一 01 本科北城其他旅游 301011 男初一 01 本科北城自然风光旅游 301011 男初一 01 本科北城动漫类书籍

301011 男初一 01 本科北城游泳运动

301011 男初一 01 本科北城足球运动 301011 男初一 01 本科北城动画卡通片影视 301011 男初一 01 本科北城喜剧片影视 301011 男初一 01 本科北城策略类游戏 301011 男初一 01 本科北城动作类游戏 301011 男初一 01 本科北城欧美流行歌曲音乐 620763 男高一 07 大专南城科技类书籍

…… …… …… …… …… …… …… ……

学生编号性别年级班级家庭成员爱好爱好类别最高学历

家庭所在区县

续表

从表 2 - 4 可以更加清楚地看到，表 2 - 3 中每一行保存了两方面的信息：

学生的基本情况和爱好情况。因为一个学生可能有多个爱好，所以就出现了学生基本情况重复存储的现象。又因为每一行都存储了两方面的信息，删除其中任何一方面的信息，都会连带把另一方面的信息删除。

学生的基本情况和爱好情况分别属于两个不同的实体集，但有一定的对应关系，对应关系如图 2 - 1 所示。

二维表由行和列组成，不存在单元格的合并，也不存在表格的嵌套，所以需要进一步拆分表2-4。

内容相同的单元格合并，变为表 2 - 4 。

表2-4 把内容相同的单元格合并

学生编号性别年级班级家庭成员爱好爱好类别最高学历

家庭所在区县

301006 男初一 01 研究生东城

动漫电脑动画电脑绘画自然风光报纸杂志

……

大陆流行歌曲世界名曲电脑绘画博物馆

……

动作类欧美流行歌曲科技类

绘画绘画绘画旅游书籍

……

音乐音乐绘画旅游

……

游戏音乐书籍 301011 男初一 01 本科北城

620763 男高一 07 大专南城

…… …… …… …… …… …… …… ……

学生编号性别年级班级家庭成员爱好爱好类别最高学历

家庭所在区县

301006 男初一 01 研究生东城

动漫电脑动画电脑绘画自然风光报纸杂志

……

大陆流行歌曲世界名曲

绘画绘画绘画旅游书籍

……

音乐音乐

表2-7 添加学生编号的学生爱好表爱好

动漫电脑动画报纸杂志

……

游泳足球

欧美流行歌曲科技类

爱好类别绘画绘画书籍

……

运动运动音乐书籍学生编号

301006 301006 301006

……

301011 301011 301011 620763 表2-6 学生爱好表

爱好动漫电脑动画报纸杂志

……

游泳足球

欧美流行歌曲科技类

爱好类别绘画绘画书籍

……

运动运动音乐书籍

如果将表 2 - 4 拆分成表 2 - 5 和表 2 - 6 ，每个表中只保存某一方面的数据，这样就避免了数据的冗余问题和删除异常问题。

由此可见，拆分表是消除数据冗余和删除异常的有效方法。但是，拆分表后两表之间的对应关系不能丢失，所以还需要为表 2 - 5 与表 2 - 6 建立关系。

3. 为拆分后的表建立关系

为拆分后的表之间建立关系的关键是，在两表中都必须有唯一识别每个学生的字段，即主关键字。因此，应该在“学生爱好”表中添加可以识别学生的主关键字“学生编号”，如表 2 - 7 所示。

表2-5 学生基本情况表

学生编号性别年级班级家庭成员最高学历家庭所在区县

301006 男初一 01 研究生东城

301011 男初一 01 本科北城

620763 男高一 07 大专南城

…… …… …… …… …… ……

图2-1 学生基本情况与兴趣爱好的对应关系

接上页图学生编号性别年级班级家庭成员爱好爱好类别

最高学历

家庭所在区县

电脑绘画博物馆

……

动作类欧美流行歌曲科技类

……

绘画旅游

……

游戏音乐书籍

……

620763 男高一 07 大专南城

…… …… …… …… …… ……

301011 男初一 01 本科北城

表2-4被拆分成表2-5、表2-6后，数据冗余大大减少。为了把两个表联系起来，产生了表2-7。但表2-7中还存在以下问题。

（1）当删除编号为620763的学生的爱好情况时，同时也会把“科技类”属于“书籍”这样的信息删除。

（2）如果需要把“运动”类改成“体育”类，则需要在表中逐个进行修改。

（3）如果没有一个学生选择“海底探险”这种爱好，那么表2-7就不能保存“海底探险”这条信息。

想一想，产生这些问题的原因是什么？应该怎样解决？

出现上述问题的主要原因是，学生的爱好和爱好类别是属于不同的实体集，但它们却都保存在表 2 - 7 中，所以还需要进一步拆分表 2 - 7 。

把表2-7拆分为表2-8(a)和表2-8(b)，表2-8(a)保存学生的爱好，表2-8(b)保存爱好所属的类别。这样拆分是否可以解决以上问题？为什么？

表2-8(a) 拆分后的学生爱好表表2-8(b) 爱好类别表学生编号

301006 301006 301006

……

301011 301011 301011 620763

爱好动漫电脑动画报纸杂志

……

游泳足球

欧美流行歌曲科技类

类别编号 HH LY SJ YD YS YX YY

类别名称绘画旅游书籍运动影视游戏音乐

将表 2 - 7 拆分为表 2 - 8(a) 和表 2 - 8(b) 后丢失了爱好与爱好类别的对应关系，因此，增加表 2 - 8(c) 建立爱好与爱好类别的关系。这样，有关

“学生兴趣爱好”的数据就有效地组织起来了。由此可知，数据组织过程的关键是拆分表格，并在拆分过程中保持数据间的联系。

这里需要说明的是：对爱好和爱好类别分别编号，是因为不同爱好类别有可能包含相同的爱好项目，

如绘画类和书籍类都包含“动漫”。

爱好名称所属类别爱好编号

表2-8(c) 爱好列表

动漫电脑动画报纸杂志

……

游泳足球

欧美流行歌曲科技类

绘画绘画书籍

……

运动运动音乐书籍 HH-DM

HH-DNDH SJ-BZH

……

TY-YY TY-ZQ YY-YMLX SJ-KJ

随着问题解决过程的不断深入，常常是旧的问题解决了，新的问题又出现了。正是在这个循环反复、螺旋上升的过程中，问题最终将得到解决。

2.1.3.2 组织数据的基本原则

将数据组织到关系表中，一般要遵循以下几个原则。

2.1.2.2 组织数据的规范

为了更好地保证数据组织的合理性，让数据的规范化有据可依，国际上提出了五个量化的范式指标。它们分别是第一范式（First Normal Form, 简称 1NF）、第二范式（Second Normal Form, 简称2NF）、第三范式（Third Nor- mal Form, 简称 3NF）等。

关系数据库中每个数据表都有若干字段，第一范式规定，每个字段都是不可分的最小单位，每个关系表中都有一个可以确定各条记录的唯一字段，即主关键字。第二范式规定，在第一范式基础上，一个数据表中所有的非主关键字都要完全依赖主关键字。第三范式则规定，在第二范式基础上，非主关键字之间不能相互依赖。

三个范式之间的关系是：满足高一级的范式（如第三范式）的数据库一定满足低一级的范式（如第二范式）。

实际上，逐步拆分表格的目的就是排除非主关键字间的相互依赖，让满足第一范式的关系表满足第二范式，满足第二范式的关系表进一步满足第三范式的要求。从而使关系表尽量消除各种异常，减少数据冗余。

对关系数据库来说，一般要求满足第三范式。

Dalam dokumen 数据管理技术 (Halaman 40-45)

第三章 数据应用与维护 57

2.1 数据组织

2.1.2 数据组织的规范与过程

在关系数据库中，如何组织数据才是最恰当的呢？

2.1.2.1 实例分析

下面以“学生兴趣爱好”的调查数据为例，分析如何把数据组织到关系 数据库中，才能既满足数据库的要求，又方便以后的数据处理。

1. 一个数据存放在一个单元格中

我们分别存储学生的爱好，把爱好和爱好类别分别存放在单元格中，如 表 2 - 3 所示。

表 2 - 2 把每个学生所有的爱好放在同一个单元格中，这样统计喜欢“电 脑绘画”的人数时，就需要人工把爱好一个一个分离出来，很不方便。这样 组织数据不利于今后的统计查询，因此它不是最佳的组织形式。

一般来说，将所有的数据组织到一个二维表中，不利于进一步的统计 查询。

2. 消除数据冗余

组织数据时要考虑的第二个问题就是尽量消除数据冗余。把表 2 - 3 中

从表 2 - 4 可以更加清楚地看到，表 2 - 3 中每一行保存了两方面的信息：

学生的基本情况和爱好情况。因为一个学生可能有多个爱好，所以就出现了 学生基本情况重复存储的现象。又因为每一行都存储了两方面的信息，删除 其中任何一方面的信息，都会连带把另一方面的信息删除。

学生的基本情况和爱好情况分别属于两个不同的实体集， 但有一定的对 应关系，对应关系如图 2 - 1 所示。

内容相同的单元格合并，变为表 2 - 4 。

如果将表 2 - 4 拆分成表 2 - 5 和表 2 - 6 ，每个表中只保存某一方面的数 据，这样就避免了数据的冗余问题和删除异常问题。

由此可见，拆分表是消除数据冗余和删除异常的有效方法。但是，拆分 表后两表之间的对应关系不能丢失，所以还需要为表 2 - 5 与表 2 - 6 建立关 系。

3. 为拆分后的表建立关系

为拆分后的表之间建立关系的关键是， 在两表中都必须有唯一识别每个 学生的字段，即主关键字。因此，应该在“学生爱好”表中添加可以识别学 生的主关键字“学生编号”，如表 2 - 7 所示。

出现上述问题的主要原因是， 学生的爱好和爱好类别是属于不同的实体 集，但它们却都保存在表 2 - 7 中，所以还需要进一步拆分表 2 - 7 。

将表 2 - 7 拆分为表 2 - 8(a) 和表 2 - 8(b) 后丢失了爱好与爱好类别的 对应关系，因此，增加表 2 - 8(c) 建立 爱好与爱好类别的关系。这样，有关

“学生兴趣爱好”的数据就有效地组 织起来了。由此可知，数据组织过程 的关键是拆分表格，并在拆分过程 中保持数据间的联系。

这里需要说明的是：对爱好和 爱好类别分别编号，是因为不同爱 好类别有可能包含相同的爱好项目，

如绘画类和书籍类都包含“动漫”。

2.1.3.2 组织数据的基本原则

将数据组织到关系表中，一般要遵循以下几个原则。

2.1.2.2 组织数据的规范

三个范式之间的关系是：满足高一级的范式（如第三范式）的数据库一 定满足低一级的范式（如第二范式） 。

实际上， 逐步拆分表格的目的就是排除非主关键字间的相互依赖， 让 满足第一范式的关系表满足第二范式，满足第二范式的关系表进一步满 足第三范式的要求。从而使关系表尽量消除各种异常，减少数据冗余。

对关系数据库来说，一般要求满足第三范式。

第三章数据应用与维护 57

下面以“学生兴趣爱好”的调查数据为例，分析如何把数据组织到关系数据库中，才能既满足数据库的要求，又方便以后的数据处理。

我们分别存储学生的爱好，把爱好和爱好类别分别存放在单元格中，如表 2 - 3 所示。

表 2 - 2 把每个学生所有的爱好放在同一个单元格中，这样统计喜欢“电脑绘画”的人数时，就需要人工把爱好一个一个分离出来，很不方便。这样组织数据不利于今后的统计查询，因此它不是最佳的组织形式。

一般来说，将所有的数据组织到一个二维表中，不利于进一步的统计查询。

学生的基本情况和爱好情况。因为一个学生可能有多个爱好，所以就出现了学生基本情况重复存储的现象。又因为每一行都存储了两方面的信息，删除其中任何一方面的信息，都会连带把另一方面的信息删除。

学生的基本情况和爱好情况分别属于两个不同的实体集，但有一定的对应关系，对应关系如图 2 - 1 所示。

如果将表 2 - 4 拆分成表 2 - 5 和表 2 - 6 ，每个表中只保存某一方面的数据，这样就避免了数据的冗余问题和删除异常问题。

由此可见，拆分表是消除数据冗余和删除异常的有效方法。但是，拆分表后两表之间的对应关系不能丢失，所以还需要为表 2 - 5 与表 2 - 6 建立关系。

为拆分后的表之间建立关系的关键是，在两表中都必须有唯一识别每个学生的字段，即主关键字。因此，应该在“学生爱好”表中添加可以识别学生的主关键字“学生编号”，如表 2 - 7 所示。

出现上述问题的主要原因是，学生的爱好和爱好类别是属于不同的实体集，但它们却都保存在表 2 - 7 中，所以还需要进一步拆分表 2 - 7 。

将表 2 - 7 拆分为表 2 - 8(a) 和表 2 - 8(b) 后丢失了爱好与爱好类别的对应关系，因此，增加表 2 - 8(c) 建立爱好与爱好类别的关系。这样，有关

“学生兴趣爱好”的数据就有效地组织起来了。由此可知，数据组织过程的关键是拆分表格，并在拆分过程中保持数据间的联系。

这里需要说明的是：对爱好和爱好类别分别编号，是因为不同爱好类别有可能包含相同的爱好项目，

三个范式之间的关系是：满足高一级的范式（如第三范式）的数据库一定满足低一级的范式（如第二范式）。

实际上，逐步拆分表格的目的就是排除非主关键字间的相互依赖，让满足第一范式的关系表满足第二范式，满足第二范式的关系表进一步满足第三范式的要求。从而使关系表尽量消除各种异常，减少数据冗余。