第四章作业
1. 数据仓库的需求分析的任务是什么?P67
需求分析的任务是通过详细调查现实世界要处理的对象(企业、部门用户等),充分了解源系统工作概况,明确用户的各种需求,为设计数据仓库服务。概括地说,需求分析要明确用那些数据经过分析来实现用户的决策支持需求。
2. 数据仓库系统需要确定的问题有哪些?P67、、
(1) 确定主题域
a) 明确对于决策分析最有价值的主题领域有哪些
b) 每个主题域的商业维度是那些?每个维度的粒度层次有哪些?
c) 制定决策的商业分区是什么?
d) 不同地区需要哪些信息来制定决策?
e) 对那个区域提供特定的商品和服务?
(2) 支持决策的数据来源
a) 那些源数据与商品的主题有关?
b) 在已有的报表和在线查询(OLTP)中得到什么样的信息?
c) 提供决策支持的细节程度是怎么样的?
(3) 数据仓库的成功标准和关键性指标
a) 衡量数据仓库成功的标准是什么?
b) 有哪些关键的性能指标?如何监控?
c) 对数据仓库的期望是什么?
d) 对数据仓库的预期用途有哪些?
e) 对计划中的数据仓库的考虑要点是什么?
(4) 数据量与更新频率
a) 数据仓库的总数据量有多少?
b) 决策支持所需的数据更新频率是多少?时间间隔是多长?
c) 每种决策分析与不同时间的标准对比如何?
d) 数据仓库中的信息需求的时间界限是什么?
3. 实现决策支持所需要的数据包括哪些内容?P68
(1)源数据(2)数据转换(3)数据存储(4)决策分析
4.概念:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,叫做概念模型。
特点:
(1)能真实反映现实世界,能满足用户对数据的分析,达到决策支持的要求,它是现实世
界的一个真实模型。
(2)易于理解,便利和用户交换意见,在用户的参与下,能有效地完成对数据仓库的成功设计。
(3)易于更改,当用户需求发生变化时,容易对概念模型修改和扩充。
(4)易于向数据仓库的数据模型(星型模型)转换。
5.用长方形表示实体,在数据仓库中就表示主题,椭圆形表示主题的属性,并用无向边把主题与其属性连接起来;
用菱形表示主题之间的联系,用无向边把菱形分别与有关的主题连接;
若主题之间的联系也具有属性,则把属性和菱形也用无向边连接上。
6.数据库的概念模型设计主要采用E-R概念模型的设计方法。
数据仓库的概念模型设计主要采用E-R概念模型和面向对象的分析方法。
7 .图4.1所示的概念模型:商品和客户是两个主题,商品的销售信息等同于客户的购物信息,而每个商品具有本身的商品固有信息和商品号,还有就是商品的库存信息;客户具有自己的固有信息,还有就是客户号。
8.逻辑模型:计算机所支持的有E-R图转换成的数据模型,数据的逻辑结构
数据仓库的逻辑模型:星型模型
9.数据仓库的逻辑模型:用来构建数据仓库的数据库逻辑模型。
在数据库中,逻辑模型有关系、网状、层次,可以清晰的表示各个关系。
10.举例说明从数据仓库的概念模型到逻辑模型的转换?
答:
概念模型是对每个决策与属性及主体之间的关系用E-R图来表示的,E-R图能有效的将现实的世界表示成信息世界,他利于向计算机的表示形式进行转化。而逻辑模型设计是需求分析主题域,将概念模型E-R图转化为逻辑模型,即计算机表示的数据模型,数据仓库的数据模
型一般采用星型模型。例如 概念模型设计时,确定了商品和客户两个主题。其中商品对于商场来说是更基本的业务对象,商品的业务有销售、采购、库存。其中商品销售时最重要的业务。它是进行决策分析的重要方面。星型模型的设计如下:
确定决策分析需求,数据仓库是面向决策分析的,决策需求是建立多维数据模型的依据。例如分析销售额趋势,对商品的销售量,促销手段对销售的影响。
从需求中识别出事实,从决策主题确定的情况下,选择或设计反映决策主体业务表。例如在商品主题中,以销售数据为事实表。
确定维,确定影响事实的各种因素,对销售业务的维一般的包括商店,地区,部门,城市,时间,商品等。
确定数据汇总的水平,存在于数据仓库中的数据包括汇总的数据。数据仓库中对数据不同粒度的综合形成了多层次的数据结构。例如 对于时间维,可以用年 月 日 不同水平进行汇总。
设计事实表和维表,设计事实表和维表的属性,再事实表中应该记录哪些属性是有维表的数量来决定的,一般来说,与事实表相关的维表的数量应该适中,太少的维表会影响查询的质
量,用户得不到需要的数据,太多的数据会影响查询的速度。
11. 在数据仓库中为什么考虑数据的粒度层次划分?
答: 所谓的粒度是指数据仓库宗数据单元的详细程度和级别,数据越详细,粒度越小,层次级别九月低;数据综合度越高,粒度越大,层次级别就越高。在传统事务处理系统中,对数据的处理,操作都是再详细数据级别上的,即最低的粒度。但是数据仓库环境中主要是分析处理,粒度的划分键直接影响数据仓库中数据量以及所适合的查询类型。一般需要将数据划分为详细数据,轻度综合,高度综合三级或更多及粒度。不同粒度级别的数据用于不同类型的分析处理。力度的划分是数据仓库设计工作的一项重要内容,粒度划分是否适当影响数据仓库性能的一个重要方面。
12.数据仓库的记录系统包括什么内容,举例说明?
答:数据仓库中的数据来源与多个已经存在的事务处理系统外部系统,由于各个原系统的数据是面向应用的,不能完整地描述企业中的主题域,并且多个数据源的数据存在者许多不一致,因此要从数据仓库的概念模型出发,结合主题的多个表的关系模式,需要确定现有系统
的哪些数据能较好地适应数据的需求。这就要求选择最完整的、最及时的、最准确的、最接近外部实体源的数据作为记录系统,同时这些数据所在的表的关系模式接近于构成主体的多个标的关系模式。记录系统的定义要记入数据仓库的元数据。
13、什么是物理模型?数据仓库的物理模型设计包括哪些工作?
答:物理模型就是逻辑模型在计算机中的物理结构,其中包括存储结构和存取方法;数据仓库的物理模型设计的工作包括:估计存储容量、确定数据的存储计划、确定索引策略、确定数据存放位置和确定存储分配。
14、为什么数据仓库物理模型设计中要建立汇总计划和确定数据分区方案?
答:如果数据仓库只存储最小粒度的数据,每次查询遍历所有的明细记录,然后生成汇总信息,这会造成很大的开销,因此要建立汇总计划;
分区可以将表分解成易于管理的小表,对事实表的分区医保采用垂直分区或水平分区,这样使得大表被分成小表,因此要建立分区方案。
15、说明图4.8中逻辑模型与物理模型的区别。
答:逻辑模型表现出各数据元素间直接或间接的关系,并体现主题域的结构,而且说明各个表所包含的元素。而物理模型要体现在计算机中的物理结构,所以有各个表元素的类型和长度。在图4.8中,产品维表的主键为产品键,我们只能在逻辑模型中得到这个信息,而在物理模型中,产品键为integer类型,长度为10,这是在计算机中的存储结构。
16.概念模型:E-R图
逻辑模型:星型模型
物理模型:存储结构、索引、数据存放位置、存储分配。
17.(1)位索引技术
①Bit-Wise索引技术
②B-Tree索引技术
(2)表示技术
(3)广义索引
18.因为B-Tree索引增加了在数据仓库中构造和维护索引的代价;
B-Tree不适合复杂查询
19、数据仓库中采用标识技术有什么好处。
答:使用标准的数据库技术来储存数据仓库是非常昂贵的。较好的替代方法是用基于标识的技术来储存数据仓库。
一旦将基于标识的数据库存放在内存中,处理速度会得到很大的提高。
数据越多,标识数据比标准的、基于记录的数据更有利。
因为数据被大量压缩,所以整个数据库可以存放在内存中。
可以索引所有的行和所有的列。
20、数据仓库的广义索引时什么时候建立的?简单说明原因。
答:在从操作型环境抽取数据并向数据仓库中装载的同时,就可以根据用户的需要建立许多“
广义索引”。每次数据仓库装载时,就重新生成这些“广义索引”的内容。这样并不需要为了建立“广义索引”而去扫描数据仓库。而且这些索引都非常小,开销也是相当小,但它给应用所带来的便利却是显而易见的。对于一些经常性的查询,利用一个规模小得多的“广义索引”总比去搜索一个大得多的关系表方便得多。
21、说明数据仓库开发的四个阶段和12个步骤
答:如下图所示发:分为分析设计阶段;数据获取阶段;决策支持阶段;维护与评估阶段。
22. 数据获取阶段包括数据抽取,数据转换,数据装载3个步骤。数据抽取:数据抽取主要进行数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。数据转换:数据抽取得到的数据不能直接存入数据仓库的。数据转换工作包括:数据格式的修改,字段的解码,单个字段的分离,信息的合并,变量单位的转化,时间的转化,数据汇总等。数据装载:数据装载包括初始装载,增量装载,完全刷新。
23. 数据仓库的简历就是要达到决策支持的目的。决策支持阶段包括信息查询和知识探索两个步骤。信息查询:信息查询者使用数据仓库发现目前存在的问题。为适应信息查询者的要求,数据仓库一般采用如下的方法提高信息查询效率:创建数据陈列,预连接表格,预聚集数据,聚类数据。知识探索:只是探索者使用数据仓库能对发现的问题出原因。
24. 维护与评估阶段包括数据仓库增长,数据仓库维护,数据仓库评价。数据仓库增长:数据仓库建立以后,随着数据用户的不断增加,时间的曾增长,用户查询需求更多,数据会迅速增长。数据仓库维护:数据仓库维护包括适应数据仓库增长的维护和正常系统维护两类。数据仓库评估:数据仓库评估包括系统性能评定,投资回报分析,数据质量评估。
25.概括说明“概念模型、逻辑模型、物理模型”分别是什么样的数据模型?
答:将需求分析过程中得到的用户需求抽象为计算机表示的信息结构,即概念模型。逻辑模型是由概念模型进一步转化成计算机支持的数据模型。物理模型是逻辑模型设计的数据模型适应应用要求在计算机中的存储结构和存取方法。
26.数据仓库索引技术包括哪些内容?
答:位索引技术、标识技术、广义索引。
27.为什么B-Tree索引不适合数据仓库?
答:1、B-Tree只适合于高基数字段,但对于低基数字段毫无价值。
2、B-Tree索引需占一定的空间和时间,增加了在数据仓库中构造和维护索引的代价。
3、数据仓库应用中常常是复杂的查询,并经常带有分组及聚合条件,此时B-Tree索引往往无能为力。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论