• Tidak ada hasil yang ditemukan

数据分析的意义及发展

Dalam dokumen 数据管理技术 (Halaman 118-123)

第五章 简单数据库应用系统设计与开发 115

4.3 数据分析的意义及发展

数据分析随处可见,正是由于人们对数据进行了统计分析,数据才对 我们的生活和科学研究变得如此重要。通过本节的学习,你可以:

了解数据分析在现实生活中的应用

了解数据分析的发展前景

(1)这个国家或地区进出口贸易中,哪些商品的贸易额最大,哪些最小?

_______________________________________________________________________

(2)依据你对这个国家或地区的了解,你认为形成这种状况的原因是什么?

_______________________________________________________________________

_______________________________________________________________________

_______________________________________________________________________

4.3.1 数据分析的意义

我们已经对数据分析和应用有了简单的了解。在生活中,数据分析随处 可见,电信部门依据通话计时和计费标准确定每月的话费,工厂依据一段时 间的收入和支出来计算盈亏, 超市依据某城市的市民消费水平数据分析状况 来制定自己的经营策略等,其中大量的分析数据来源于数据库。

想一想,在你的学习和生活中,遇到了哪些事情需要对数据进行分析?你一定 有很多亲友在各个行业工作,试了解他们的工作中有哪些事情需要对数据进行分析。

近些年来,随着计算机技术的迅速发展与普及,数据统计和分析在科学 研究和社会生活各个方面的应用越来越广泛。

2003年3月18日至3月20日,第三届世界客车博览亚洲展览会在上海新国际 博览中心隆重举行。此次展会共吸引了156家参展商,其中客车整车企业达26家,

成为新老客车企业汇聚一堂、客车新品争奇斗艳的一次盛会。

在本届博览会上,来自海外的参展商为促使自己成功地进入中国市场,分别展 出了各自最新开发的产品。整个客车行业已被整个中国汽车市场看好,展会现场到 处都在进行商务洽谈和技术磋商。

资料

以上资料中各个方面的统计结果都是以数字形式表达的, 可以用于表述 统计结果是数据分析的基本作用之一。

从本次客车博览会数据采集、分析和作出结论的全过程来看,无论 是直观的数据结果还是通过数据分析得出的规律性结论,都将成为具有 重要参考价值的资料。组织者可以从这些数据中发现问题,并据此作出 更具针对性的决策。这是数据分析的另一个基本作用,即发现问题并为 决策提供依据。

通过对“学生兴趣爱好”数据库的分析,可以发现中学生在爱好方面的 一些特点,以及这些特点和他们的生活环境的关系。这体现了数据分析的又 一个重要作用,即从数据中发现规律。

4.3.2 数据分析的发展

随着数据管理技术的不断发展和广泛使用,数据库中存储的数据量 急剧增大。人们深切地体会到,在大量的数据背后也许隐藏着很多没有 被人发现的信息。如何才能不被大量的信息淹没,及时从中发现有用的 信息、提高信息的利用效率呢?

常用的数据分析工具已经不能满足这样的要求。 人们迫切需要新技术和

为了收集更加翔实的展会数据,有关部门对以下三方面的情况进行了统计分析。

1.总体概况分析

(1)展会展出规模。包括参展厂商总数、国际参展商数目、国内参展商数目、

展会展出总面积、外方参展面积、中方参展面积、展会净面积等方面的统计数据以 及与上期展会相比每个项目上涨的百分比。

(2)参展厂商来自中国、法国、德国、日本、瑞典、英国、美国、土耳其等16 个国家和地区,他们分别代表着各个国家的客车工业发展方向。

(3)为期3天的展会共吸引了12 215位观众。其中,专业观众10 875人,比去

年增长了21.3%;国外观众达952人,比去年增长了42%。

2.观众分析

包括观众来源统计、观众职位统计、观众的兴趣统计、观众参观目的统计、观 众对展会的评价等几个项目的统计分析(数据来源于随机对100位来宾进行的抽样 调查)。

3.展商分析

包括展商资料、展商对展会的评分、展商参展目的数据统计、展商参展效果数 据统计、展商对来宾质量评价数据统计、展商对展会组织的评价、展商对下一届展 会的兴趣等项目。

调查数据显示:本届世界客车博览亚洲展览会是成功的,众多展商实现了预期 的愿望;展商给予的高度评价足以证明此次展览会在中国客车行业有着举足轻重的 作用;此次车展亦吸引了众多对客车市场有深入研究和积极影响的观众,对展会的 成功举办产生了良好的作用。

传统的数据库技术是以单一的数据资源,即数据库为中心,进行事务处 理、批处理、决策分析等各种数据处理工作的。传统数据库系统有利于企业 的日常事务处理工作,却无法满足数据处理多样化的要求。

随着数据处理需求的扩展, 很多企业需要对其自身业务的运作以及整个 市场相关行业的情况进行分析,从而作出有利的决策。这种决策需要对大量 的业务数据(包括历史业务数据)进行分析才能得到,我们把这种基于业务 数据的决策分析称为联机分析处理。针对这一问题,人们设想专门为业务的 统计分析建立一个数据中心,它的数据来源包括联机的事务处理系统、异构 的外部数据源、脱机的历史业务数据……我们把这个数据中心称为数据仓 库,它是一个联机的系统,专门为分析统计和决策支持服务,通过它可以满 足决策支持和联机分析的需要。

数据仓库(Data Warehouse,简称 DW)就是一个作为决策支持系统和 联机分析应用数据源的结构化数据环境。 它所要研究和解决的问题就是从数 据库中获取信息。它允许分析人员、管理人员或执行人员从多个角度对信息 进行快速准确的存取和分析,从而获得对数据更深入的分析和了解。

上面资料中的化妆品公司有自己的数据仓库, 其中的数据来源于各个分 公司的数据库。分析数据仓库中的信息就可以得到总经理想要的销售分析。

有一家化妆品公司是一个成功的连锁公司,它的分公司遍布几大城市,每一个 分公司都有自己的商品数据库。总经理每一季度都要求每个分公司提供上一季度每 种商品的销售分析。该公司是如何将各个数据库中的信息汇总并形成一个统一的分 析报告呢?这就需要借助数据仓库的功能了。

4.3.2.1 数据仓库

资料

新工具,以便从大量的数据中智能地、自动地、快速地抽取出有价值的信 息。数据仓库、数据挖掘等更强大的数据分析工具出现了,它们推动了数据 分析在研究和应用领域的新发展。

著名超市沃尔玛借助数据管理技术对商场的销售数据进行分析后发现,跟尿布 一起购买最多的商品竟然是啤酒!这两个互不相干的商品居然能够建立关联!通过 进一步地分析和调查了解到,美国的太太们常叮嘱她们的丈夫为小孩买尿布,而丈 夫们在买尿布时又顺手买了啤酒,因此啤酒与尿布被一起购买的机会最多。于是该 超市改变了原先的货架布局,把啤酒与尿布摆放到一起,从此尿布与啤酒的销售量 双双增长。

4.3.2.2 数据挖掘

数据挖掘是 从大型数据库中 提取以前不知道 的可操作性信息 的 知 识 挖 掘 过 程。

数据挖掘不 能替代传统的统 计分析技术。相 反,它是统计分 析方法学的延伸 和扩展。

——Aaron Zornes

在卓越亚马逊网上书店选中一本书后, 会发现网页上出现了相关的推荐 书目,这背后就是数据挖掘技术在发挥作用。

随着数据挖掘技术在各个领域的成功应用, 越来越多的人们已经认识到 数据挖掘技术能将原始数据转换为有意义和有价值的信息, 从中挖掘潜在的 巨大商业价值和蕴涵的科学知识。 随着数据挖掘技术不断被应用到新的领域 和各种算法不断被应用到数据挖掘领域, 数据挖掘技术的潜力将不断地被激 发,从而推进数据挖掘技术的快速发展和普及。

从大量数据中发现更多的知识和规律被称为是数据挖掘(Data Mining,

简称 DM) ,即从数据库中发现隐含的、未被人知道的、有价值的规律和知 识,所以数据挖掘也被称为是知识发现(Knowledge Discovery in the

Databases,简称 KDD) 。数据挖掘针对的对象可以是数据库,也可以是数

据仓库。数据挖掘与传统的数据分析的本质区别在于,它是在没有明确假 设的前提下去挖掘信息、发现规律。例如前面所述的沃尔玛超市就是通过 数据挖掘发现了小孩尿布和啤酒之间惊人的联系。数据挖掘技术采用的是 强大的多处理器计算机,它通过复杂的数学分析和算法来对大量的数据进 行统计分析,从中发现以前不被人所知的规律和知识。

利用搜索引擎,查找一些关于数据分析和数据挖掘的网站,了解数据挖掘技术 应用了哪些分析方法和技术。

目前,数据挖掘技术在零售业的货篮数据分析、金融风险预测、产品产 量质量分析、分子生物学、基因工程研究、生物医学、过程控制和质量监 督、Internet 站 点访问 模式发 现以及 信息搜 索和分 类等许 多领域 得到了 成 功的应用。

访问卓越亚马逊网上书店。当你选中一本书后,看看你发现了什么。

仔细观察,我们会发现同一种商品在不同超市的售价是不同的。一些商品在某 超市价格便宜,一些商品在另一个超市价格便宜。

通过学习小组的分工合作,收集几家超市或者商店的日用品和学习用品的价格,

整理这些数据并存放到数据库中,通过数据分析整理出一份最佳的购物方案。并在 分析过程和最终方案中体现以下信息:

(1)要收集的数据是哪些;

(2)各个商品的最低价格及销售地点;

(3)最佳购物方案;

(4)方案的适用性。

完成方案后,与全班同学共享这些信息。

Dalam dokumen 数据管理技术 (Halaman 118-123)