数据仓库和数据挖掘
考试思考题
1、 数据仓库的主要特点(P6),数据仓库的主要应用;
(1)数据仓库是面向主题的
主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,保险公司的数据仓库的主题为客户、政策、保险金、索赔等。
(2)数据仓库是集成的
数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致等。总之,将原始数据结构做一个从面向应用到面向主题的大转变。
(3)数据仓库是稳定的
数据仓库中包括了大量的历史数据。数据经集成进入数据仓库后是极少或根本不更新的。
(4)数据仓库是随时间变化的
数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合决策分析时进行时间趋势分析。
(5)数据仓库中的数据量很大
通常的数据仓库的数据量为10GB级,相当于一般数据库(约100MB)的100倍,大型数据仓库是1TB(1000GB)级数据量。
(6)数据仓库软硬件要求较高
需要一个巨大的硬件平台和一个并行的数据库系统。
主要应用:数据仓库的主要应用包括快速查询、多维分析及数据挖掘等多种类型,主要用在学校教育管理,医院信息管理,数字城市建设以及电信行业中。商业智能以数据仓库为基础,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速、准确地决策。
2、 元数据的定义(P5)以及元数据的主要特点;
定义:元数据为关于数据的数据(data about data)。元数据在数据仓库中是描述数据仓库中数据及其环境的数据。元数据遍及数据仓库的所有方面,是整个数据仓库的核心。
特点:(1)描述性:这是所有元数据的最本质的特征。元数据通过按一种约定俗成的规则来描述对象的手段来组织和管理信息资源。
(2)动态性:元数据随着所描述对象的变化而变化。
(3)多样性:一个描述对象的元数据会有各方面的特征。
(4)复杂性:主要体现在两方面。一方面,元数据即可以实际和概念也可以是个体概念;另一方面,强制性的元数据与选择性的元数据共存。
(5)多层次性:由元数据所描述对象的多层次和元数据使用对象的多层次决定的
(6)支撑性:元数据有效维护所描述对象的原始性和完整性。
3、 商业智能的主要特点和发展方向;
主要特点:(1)及时性。商业智能使用的技术,可以实时地从业务系统中获得最新的数据。
(2)准确性。(3)自动化。整个基础数据的获得、数据的处理,以及数据的展现,都是一个自动化的过程。(4)灵活性。决策支持的展现方式灵活多样,充分体现了商业智能灵活性的特点。
发展方向:云计算、移动应用、大数据被称为商业智能的三大发展趋势。商业智能发展十几年来,一直与当前的技术热点相结合,云技术、移动应用、大数据这三大火焰,已燃起了商业智能未来的发展方向。而从应用角度来看,现在商业智能又呈现出终端多样化的发展趋势,它将带来崭新的应用浪潮,同时使三大技术在商业智能中的价值得到充分利用和更直接的体现,以此提升解决企业业务问题的能力。
4、 商业智能如何能改进企业决策过程;(P15)
(1) 信息共享。
有了商业智能系统就可以实现信息共享,用户可迅速到所需要的数据,通过对数据进行
钻取分析以达到目标。
(2) 实时反馈分析。
商业智能的运用能够使员工随时看到工作的进展程度,并且了解一个特定的行为对现实目标的效用。如果员工能看到自己的行为如何提升或影响了业绩,那么也就不需要过于复杂的激励体系了。
(3) 鼓励用户到问题的根本原因。
根据初步得到的答案而采取的行动可能未必成功,因为初步的探索往往没有发现根本问题的所在,要到根本原因就需要对与成功或失败的相关诸多因素进行深度分析。
(4) 使用主动智能。
在数据仓库中设定预警机制,一旦出现超过预警条件的数据,就自动通过各种设备通知用户。
(5) 实时智能。
企业采用真正的实时智能,将大大提高运营效率、降低成本、提高服务质量。
5、 数据模型和数学模型的区别和应用有什么不同;
区别:数据模型是现实世界数据特征的抽象,一般包括数据结构和数据操作。数学模型是根据对研究对象所观察到的现象及实践经验,归结成的一套反映其内部因素数量关系的数学公式、逻辑准则和具体算法。用以描述和研究客观现象的运动规律。
应用不同:数据模型侧重于描述数据的类型、内容、操作等;而数学模型则是研究数据内在的数学规律与数学表达。
6、 数据挖掘中常用的有哪几种数据模型(P25),第三范式数据模型和其他几种数据模型有什么主要区别?
数据模型:星型模型、雪花模型、星网模型、第三范式。
星型模型的区别:第三范式数据模型把事实表和维表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,每个表按第三范式组织数据;而每个星型模
型都在事实表中保存了一些指标,为特定的目的服务。多个相关的星型模型通过相同的维表连接起来形成网状结构。
7、 什么是多维数据,为什么要使用多维数据,多维数据显示的经验规则是什么(P52),举例说明八维数据显示(P51)。
概念:多维数据由基于一个或多个事实数据表的量度值和基于一个或多个维度表的维度组成。一般采用多维数据库和关系数据库两种方式存储。
原因:为了满足用户从多角度多层次进行数据查询和分析的需求,因而使用基于事实和维的多维数据模型。
经验规则:(1)将维度尽量放在页中,除非确定需要同时看到一个维度的多个成员。让屏幕上的信息尽量相关。
(2)当维度嵌套在行或者列中时,考虑到垂直空间比水平空间更为有用,所以将维度嵌套在列中比嵌套在行中要好。
(3)在决定数据的屏幕显示方式之前,应该首先弄清楚需要查和分析比较的内容。
8、 如何进行数据清洗,数据清洗的方法有哪些,工具有哪些,数据清洗的发展方向;
数据清洗是发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺省值等。首先过滤哪些不符合要求的数据,然后将过滤结果交给业务主管部门,最后确认是否滤掉还是由业务单位休整之后在进行抽取。
数据清洗方法有自动检测属性错误的方法、属性字段清洗方法、基于业务逻辑的属性清洗方法。
工具有特定功能的清洗工具(IDCENTRIC、DATACLEANSER)、ETL工具(COPYMANAGER、DATASTAGE)其他工具如基于引擎的工具(DECISIONBASE)数据分析工具(WIZRULE)盒业务流程在设计工具(INTEGRITY)等。
发展方向:数据清理目前主要集中在西文上,而中文数据清理具有很大的发展潜力。数据清洗未来发展主要集中在数值型、字符串型字段。
9、 数据分析的主要工作是哪些,不同的单位如商业企业和制造业企业数据分析的主要区别是什么,如何针对不同类型的单位进行更有效的数据分析?
数据分析主要工作是通过对数据进行切片、切块、旋转、钻取等操作,进行数据搜集、整理、分析。
主要区别:利用数据仓库中的数据进行商业分析需要建立一系列模型,用于提高决策支持能力。商业分析模型有分销渠道的分析模型、客户利润贡献度模型、客户关系优化模型、风险评估模型。
针对不同类型的单位,要具有针对性地采取不同的数据分析方法,并且根据不同单位的需要建立不同的模型来提高决策支持能力。
10、 从商业角度考虑,数据挖掘的投入和价值如何体现,如果你是宝钢的最高领导,如何确定企业数据挖掘的战略,如果你是中国电信的最高领导,你将如果制定数据挖掘的战略?
数据挖掘可以帮助企业衡量业绩表现,同时还能对管理方法和敏捷决策的制定做提前预警和规划。通过数据挖掘中的数据分析得出的预测,提升工作效率,改善客户服务。以沃尔玛为例,在大数据之前,他们经常雇佣一些偷过他们东西的人为店员。
宝钢使用多种矿石来源,且大多是靠进口,这使得配矿问题一直是努力研究解决的问题。数据挖掘的应用,将会很好地解决宝钢的配矿问题:
(1)在配矿系统中,主要采用聚类分析技术解决配矿方案分类和矿石分类的问题;(2)配矿系统采用BP网络,利于搜索配矿规律;(3)在配料配方、质量控制、工艺调优等实际生产问题,有效利用数据采样技术、多元统计分析、聚类分析与分类、决策树、神经网络建模以及优化技术等。
中国电信在目前面临诸多挑战:新增用户的开发,存量用户的保留,用户潜在需求的挖掘,新业务的推广,资费和产品捆绑方案的设计,交叉销售政策的制定以及欠费问题的解决等,数据挖掘能够给出很好地解决方案,制定有效的精细化营销策略:
(1)利用海量历史数据,准确把握用户特征,为企业决策提供可靠依据;(2)通过数据挖掘方法有效分析客户信息,从而扩大企业经营活动范围,及时把握新的客户需求和市场机会,提高企业效率、保留客户;(3)借助客户细分,进行有针对性的实施战略,最大限度的获取利润。
11、 聚集数据与聚类数据有什么不同?(P97)
大数据etl工具有哪些聚集数据是利用“滚动概括”结构来组织数据。当数据输入到数据仓库时,以每小时为基础存储数据。一天结束时,以每天为基础存储累加每小时的数据。以此类推,不断的累加数据。通过这种方式来组织数据,可以极大地减少存储数据所需要的空间并潜在地提高性能
聚类数据在预测了用户使用需求以及使用规则后,将不同类型的数据并置在一起,即基于产生共同信息,将不同的数据记录放置在相同的物理位置。
12、 数据仓库的探索者的工作与数据仓库的数据挖掘者的工作有什么不同?
数据仓库的探索者要做的工作有概括分析、抽取、建模和分类;数据库的数据挖掘者要做的工作有数据清洗,数据整理,数据建模,数据展示等,主要利用一系列的算法等。
13、 说明如何利用数据仓库来进行预测?(P102)
数据仓库存放了大量的历史数据,从历史数据中出变化规律,将可以用来预测未来。在进行预测的时候需要用到一些预测模型,如多元回归模型、三次平滑预测模型、生长曲线预测模型。最常用的的预测方法是采用回归模型(线性回归或非线性回归)。除了预测模型外,采用聚类模型或分类模型也能达到一定的预测效果。
14、 利用数据仓库的数据资源建立的决策支持系统与传统的利用模型资源和数据库的数据资源建立的决策支持系统有什么区别?如何合并起来建立具有更强能力的决策支持系统?
传统的决策支持系统一般是建立在事务处理环境上,而利用数据仓库的数据资源建立的决策支持系统则是建立在进行决策支持能力上的。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论