BI 基础知识测试以及答案--688IT编程网

BI 基础知识测试以及答案

一、填空题：每空1分，共40分

1、商业智能技术（Business Intelligence），以数据仓库、在线分析(OLAP) 、数据挖掘

为核心技术，同时融合了关系数据库和联机分析处理技术

2、数据抽取在技术上主要涉及互连、复制、增量、转换、调度、监控以及数据安全性

等方面。

3、业界主要的数据抽取工具有 SSIS 、PowerCenter 、DataStage和Sagent等

4、业界主要的OLAP Server有：IBM OLAP Server 、 SSAS 等

5、业界主要的前端工具：Cognos 、BO 、 Brio 、BI.Office等

6、多维数据结构是OLAP的核心，其组织形式包括星型模型，雪花模型。

7、维度分类包括：普通维、雪花维、父子维

8、数据仓库基本元素包括：关系型数据库、数据源、事实表、维表、索引

9、多维模型设计基本元素：维度（级别、成员）、度量值（指标) 、计算值、存储方式、

角权限和安全机制

10、项目的具体的实施步骤：1）. 项目前期准备；2）. 需求分析；3）. 逻辑数据模型设计；4）. 系统体系结构设计；5）. 物理数据库设计；6）. 数据转换加载ETL；7）. 前端应用开发；8）、数据仓库管理(处理流程与操作) ；9）、解决方案集成（测试验收与试运行）

11、数据挖掘的模式，按功能可分有两大类：预测型（Predictive）模式和描述型（Descriptive）模式。在实际应用中，往往根据模式的实际作用细分为以下6 种：1）、分类模式2）、回归模式3）、时间序列模式 4）、聚类模式5）、关联模式6）、序列模式

二、问答题：共60分

12、（6分）请说明BI技术体系之间是如何实现互补的？

数据仓库技术：数据整合

集成各系统的历史数据，建立面向主题的企业数据中心

在线分析处理技术：数据分析

灵活、动态、快速的多维分析、随机查询、即席报表

数据挖掘技术：知识发现

通过数学模型发现隐藏的、潜在的规律，以辅助决策

13、（9分）请简述一下数据仓库系统的显著特征

一、频繁的变化

数据仓库系统在任何企业信息系统中都是最不稳定的环节，对数据仓库各个部分的调整和修改十分频繁。这是由数据仓库系统的功能和结构决定的。数据仓库系统的目的是为企业中不同的用户提供信息支持，用户的信息需求随着市场的变化随时可能发生变化，所以数据仓库系统也必须不断变化适应新的需求。从技术层面看，数据仓库的数据不是由自身产生，而是由业务系统数据库获得，因此数据仓库系统必须随着业务系统的变化进行修改和调整，这也是造成数据仓库经常变化的重要原因

二、面向企业中不同业务和用户

大规模企业信息系统通常由多种应用系统负责处理不同的业务，但数据仓库系统是企业信息的提供平台，它存在的主要目的之一是为企业提供统一的、正确的信息，所以它必须支持不同的业务、不同部门、不同用户的需求

三、少量大事务处理vs 大量小事务处理

从技术层面考虑，业务系统的应用特点是大量用户产生大量的事务，每一个事务占用的资源和运行的时间都很少。而数据仓库系统经常需要对庞大的历史信息进行查询和分析，每个事务都涉及大量的数据，事务

的数量相对业务系统要小得多。这样的特点要求数据仓库系统和业务处理系统采用不一样的设计方法和处理技术

四、独立的系统

由于数据仓库系统与普通业务处理系统存在的显著区别，出于性能和运行的考虑，通常它会采用完全独立的主机、数据库和应用服务器，而成为一个独立的系统

14、（8分）数据仓库设计的原则是什么？

a, 模型构架

尽量使用星型架构，使用雪花架构的目的是使事实表第一级的维表数量达到最小

b, 设计方法

将常识规范化方法应用于维度表设计。例如，不相关的数据不应组合到单一维度表中，而且在多个维度表中数据不应重复。

c, 维表设计

设计维表应包含需要分析的有关事实的有意义信息，例如产品的颜和大小

d, 事实表设计

不要在事实数据表中进行过度的汇总，以保证在必要时可以进行所需粒度的数据访问。

e, 数据存储方式

在必要时可以把要在同一个多维数据集中使用的数据存储在多个事实数据表中，条件是这些事实数据表必须具有相同的结构。

f, 索引

在关键字段上创建索引，以提高处理多维数据集的性能。

g, 特殊要求

根据所选的OLAP引擎特殊需要，确保数据诸如完整性等的特殊要求。

h, 增量更新

必须考虑数据增量和更新的策略，以保证多维数据集中有所需的数据。

15、（12分）在ETL阶段，应注意一些什么问题？

一. 数据的有效性检查（2分）

为避免数据冗余，要认识到数据装入数据仓库之前，应该对数据进行有效性检查，这是很重要的。如果没有进行数据的有效性检查，就有可能破坏依赖于数据仓库的商务分析的完整性，帮助检查数据的有效性的最好方法是源系统专家。源系统专家包括具有技术专业知识和非技术知识的人士。

二. 数据的清洗和转换（4分）

由于数据抽取中的数据是来源于业务系统中的业务数据，难免会存在各种原因所导致的脏数据，例如数

据不在给定的界限之内或对于实际业务来说毫无意义的数据。这些数据就是数据清洗的对象。清除数据包括对那些在给定范围之外的数据采取纠正和舍去等措施。

同样，由于数据仓库中的数据来自于多种业务数据源，这些数据源可能是在不同的硬件平台上，使用不同的操作系统的，又或者是属于不同的业务系统。因而这些数据的存储格式各不相同，或者相同的数据具有

不同业务含义。而数据的转换正是为了解决这一问题而必须进行的数据抽取步骤。

三. 数据的聚合与分割（4分）

粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高，粒度级就越小；相反，细化程度越低，粒度级就越大。粒度是对数据仓库中的数据的综合程度高低的一个度量，它既影响数据仓库中的数据量的多少，也影响数据仓库所能回答询问的种类。

由于数据仓库中数据的来源是不同的业务系统数据，而各个系统对数据存储的粒度各不相同。而数据仓库中同一分析主题中数据的粒度必须是统一的，所以，为了保证数据粒度的一致性，必须对原有数据进行聚合（汇总）或分割（细化）。

四. 数据安全性（2分）

在数据抽取中还会涉及的一个重要问题就是数据的安全性。数据的抽取必非一个完全的技术问题，往往牵涉整个企业中各个不同部门中数据的共享。那么数据共享中的权限等安全问题也就是数据抽取中必须要认真对待的问题。如何保证数据抽取中和数据集中后的限制与共享往往需要业务人员的配合和介入，不能将该问题当作单纯的技术问题来对待，而必须进行周密的考虑和计划。

16、（10分）常用的增量抽取方法有哪些？每种方法都有些什么样的问题？

一. 时间戳

如果在原始数据中含有时标，对新插入或更新的数据有标记或是数据在更新时有时间戳，那么只需根据时标进行判断即可。但并非所有的数据源中都会含有时标设计。

二. 增量文件

它是由应用生成的，记录了应用所改变的所有内容。利用增量文件效率很高，它避免了扫描整个数据库，

但同样的问题是生成DELTA文件的应用并不普遍。此外，还有更改应用代码的方法，使得应用在生成新

数据时可以自动将其记录下来。但应用成千上万，且修改代码十分繁琐，同时涉及业务应用，所以这种方法很难实现。

三. 数据快照

在抽取数据前后对数据库各作一次快照，然后比较两幅快照的不同从而确定新数据。它占用大量资源，对性能影响极大，因此并无多大实际意义。

四. 日志文件

最可取的技术大概是利用日志文件了，因为它是DB的固有机制，不会影响OLTP的性能。同时，它还具有DELTA文件的优越性质，提取数据只要局限日志文件即可，不用扫描整个数据库。当然，原来日志文件的格式是依据DB系统的要求而确定的，它包含的数据对于数据仓库而言可能有许多冗余。比如，对一个记录的多次更新，日志文件将全部变化过程都记录下来；而对于数据仓库，只需要最终结果。但比较而言，日志文件仍然是最可行的一种选择。

五. 业务逻辑

在进行增量抽取时也可以利用实际业务应用中提供的逻辑来进行增量抽取，但是使用该方法必须对应用逻辑十分了解，并且受应用的牵制较多，并非最佳选择。

由于数据增量抽取的复杂性，以上各种方法的应用往往是结合使用的，并且在必要的时候可能需要人工的干预，而怎样才能使增量抽取达到最大的自动化也仍然是一个正在摸索中的难题。server系统和普通系统的区别

17、（10分）请简述一下三种OLAP存储方式的优缺点各是什么？

一. 多维存储方式（MOLAP）（4分）

MOLAP在服务器上对数据立方体数组及其管理技术的实现，可以所有的信息查询都从MOLAP服务器上

获得。

a, 优势

¨性能好、响应速度快；

¨支持高性能的决策支持计算；

¨复杂的跨维计算；

¨多用户的读写操作。

b, 缺点

¨占用的存储空间较大

¨难以达到TB 级数据量；

¨需要进行预计算，可能导致数据爆炸；

¨无法支持维的动态变化；

¨缺乏数据模型和数据访问的标准。

二. 关系数据库存储方式（ROLAP）（4分）

ROLAP充分利用关系数据库技术将明细数据和聚合数据存储在一个关系型结构中的存储方式。

a, 优势

¨没有大小限制；现有的关系数据库的技术可以沿用；

¨可以通过SQL实现详细数据与概要数据的储存；

¨现有关系型数据库已经对OLAP做了很多优化，包括并行存储、并行查询、位图索引、SQl 的OLAP扩展等大大提高了ROALP的速度；

¨查询性能较不如MOLAP方式。

¨占用的存储空间较少

b, 缺点

¨一般比MDD响应速度慢；

¨SQL无法完成部分计算，主要是无法完成多行的计算，无法完成维之间的计算。

三. 混合存储方式（HOLAP）（2分）

将聚合存储到分析服务器计算机上的多维结构中，并将分区的源数据保留在它现有的关系型结构中的存储方式。

特点

¨查询性能介于以上两种方式之间

¨占用的存储空间介于以上两种方式之间

¨适用于在对基于大量基本数据的汇总进行查询时需要快速响应的多维数据集

18、（5分）在项目实施过程中，逻辑模型设计和物理模型设计各自的任务是什么？

逻辑模型设计（2.5分，每个0.5分）

主要任务：

–进行原始数据分析

–建立实体模型

–建立实体间依赖关系

–完善并填入所有属性

–建立数据库逻辑模型

物理模型设计（2.5分，每个0.5分）

主要任务：

–转换逻辑数据模型（LDM）为物理数据模型–定义主索引、次索引

–数据库建立

–设计优化

–数据库功能

688IT编程网

BI 基础知识测试以及答案

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

BI 基础知识测试以及答案

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法