数据挖掘作业集答案--688IT编程网

数据挖掘作业集答案

《数据挖掘》作业集答案

第一章引言

一、填空题

（1）数据清理，数据集成，数据选择，数据变换，数据挖掘，模式评估，知识表示

（2）算法的效率、可扩展性和并行处理

（3）统计学、数据库技术和机器学习

（4）WEB挖掘

视图包括哪几个视图（5）一些与数据的一般行为或模型不一致的孤立数据

二、单选题

（1）B；（2）D；（3）D；（4）B；（5）A；（6）B；（7）C；（8）E；

三、简答题

（1）什么是数据挖掘？

答：数据挖掘指的是从大量的数据中挖掘出那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或知识。

（2）一个典型的数据挖掘系统应该包括哪些组成部分？

答：一个典型的数据挖掘系统应该包括以下部分：

数据库、数据仓库或其他信息库

数据库或数据仓库服务器

知识库

数据挖掘引擎

模式评估模块

图形用户界面

（3）请简述不同历史时代数据库技术的演化。

答：1960年代和以前：研究文件系统。

1970年代：出现层次数据库和网状数据库。

1980年代早期：关系数据模型, 关系数据库管理系统(RDBMS)的实现

1980年代后期：出现各种高级数据库系统（如：扩展的关系数据库、面向对象数据库等等）以及面向应用的数据库系统（空间数据库，时序数据库，多媒体数据库等等。

1990年代：研究的重点转移到数据挖掘, 数据仓库, 多媒体数据库和网络数据库。

2000年代：人们专注于研究流数据管理和挖掘、基于各种应用的数据挖掘、XML 数据库和整合的信息系统。

（4）请列举数据挖掘应用常见的数据源。

（或者说，我们都在什么样的数据上进行数据挖掘）

答：常见的数据源包括关系数据库、数据仓库、事务数据库和高级数据库系统和信息库。其中高级数据库系统和信息库包括：空间数据库、时间数据库和时间序列数据库、流数据、多媒体数据库、面向对象数据库和对象-关系数据库、异种数据库和遗产(legacy)数据库、文本数据库和万维网(WWW)等。

（5）什么是模式兴趣度的客观度量和主观度量？

答：客观度量指的是基于所发现模式的结构和关于它们的统计来衡量模式的兴趣度，比如：支持度、置信度等等；主观度量基于用户对数据的判断来衡量模式的兴趣度，比如：出乎意料的、新颖的、可行动的等等。

（6）在哪些情况下，我们认为所挖掘出来的模式是有趣的？

答：一个模式是有趣的，如果(1) 它易于被人理解；（2）在某种程度上，对于新的或测试数据是有效的；（3）具有潜在效用；（4）新颖的；（5）符合用户确信的某种假设。（7）根据挖掘的知识类型，我们可以将数据挖掘系统分为哪些类别？

答：根据挖掘的知识类型，数据挖掘系统可以分为特征分析，区分，关联分析，分类聚类，孤立点分析/演变分析，偏差分析，多种方法的集成和多层级挖掘等类型。

第二章数据仓库和数据挖掘的OLAP技术

一、填空题

（1）星形模式、雪花模式和事实星座模式

（2）不物化、部分物化和全物化

（3）面向主题、数据集成、随时间而变化和数据不易丢失

（4）事务操作，只读查询

（5）分布的、代数的和整体的

（6）自顶向下视图、数据源视图、数据仓库视图、商务查询视图

（7）关系OLAP服务器(ROLAP)、多维OLAP服务器(MOLAP)和混合OLAP服务器(HOLAP)

（8）分布的

（9）海量数据，有限的内存和时间

二、单选题

（1）B；（2）D；（3）C；（4）A；（5）B

三、多选题

（1）ABD；（2）ABC；（3）BCD；（4）ACD；

四、简答题

（1）为什么在进行联机分析处理(OLAP)时，我们需要一个独立的数据仓库，而不是直接在日常操作的数据库上进行。

答：使用一个独立的数据仓库进行OLAP处理是为了以下目的：

(1)提高两个系统的性能

操作数据库是为OLTP而设计的，没有为OLAP操作优化，同时在操作数据库上处

理OLAP查询，会大大降低操作任务的性能；而数据仓库是为OLAP而设计，为复

杂的OLAP查询, 多维视图，汇总等OLAP功能提供了优化。

(2)两者有着不同的功能

操作数据库支持多事务的并行处理，而数据仓库往往只是对数据记录进行只读访

问；这时如果将事务处理的并行机制和恢复机制用于这种OLAP操作，就会显著降

低OLAP的性能。

(3)两者有着不同的数据

数据仓库中存放历史数据；日常操作数据库中存放的往往只是最新的数据。

（2）为什么说数据仓库具有随时间而变化的特征？

答：（1）数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统主要保存当前数据，而数据仓库从历史的角度提供信息（比如过去5-10 年）。

（2）数据仓库中的每一个关键结构都隐式或显式地包含时间元素，而操作数据库中的关键结构可能就不包括时间元素。

（3）试述对于多个异种信息源的集成，为什么许多公司宁愿使用更新驱动的方法（update-driven），而不愿使用查询驱动（query-driven）的方法？

答：因为对于多个异种信息源的集成，查询驱动方法需要复杂的信息过滤和集成处理，并且与局部数据源上的处理竞争资源，是一种低效的方法，并且对于频繁的查询，特别是需要聚集操作的查询，开销很大。而更新驱动方法为集成的异种数据库系统带来了高性能，因为数据被处理和重新组织到一个语义一致的数据存储中，进行查询的同时并不影响局部数据源上进行的处理。此外，数据仓库存储并集成历史信息，支持复杂的多维查询。

（4）请简述几种典型的多维数据的OLAP操作

答：典型的OLAP操作包括以下几种

上卷：通过一个维的概念分层向上攀升或者通过维归约，在数据立方体上进行聚集；

下钻：上卷的逆操作，由不太详细的数据得到更详细的数据；通常可以通过沿维的概念分层向下或引入新的维来实现；

切片：在给定的数据立方体的一个维上进行选择，导致一个子方；

切块：通过对两个或多个维执行选择，定义子方；

转轴：转动数据的视角，提供数据的替代表示；

钻过：执行涉及多个事实表的查询；

钻透：使用关系SQL机制，钻到数据立方体的底层，到后端关系表

（5）为什么说相对于日常的应用数据库，数据仓库中的数据更加不容易丢失？

688IT编程网

数据挖掘作业集答案

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

数据挖掘作业集答案

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式