大数据分析实用教程——基于Python实现试卷17软工大数据A附答案--688IT编程网

衡阳师范学院 2019-2020substring的用法函数学年第一学期

计算机科学与技术学院软件工程专业 2017级

《云计算与大数据处理原理》期末考试试题A卷

考核类型：闭卷考试时量： 120 分钟

题号	一	二	三	四	总分	合分人	复查人
分值	20	20	30	30	100
得分

ps教程抠图

学院

专业

年级、班级

学号

姓名

得分	评卷人

一、单选题（每小题2分，共20分）

1.以下哪项不是大数据的特点 ( )
A、数据量大 B、数据类型多样
C、价值密度高 D、数据真实性

2.云计算的关键技术不包括下列哪项 ( )
A、负载均衡 B、虚拟化
C、串行计算 D、按需部署

python数据分析基础教程答案3.按照虚拟化的层次，Vmware虚拟机属于 ( )

A. 指令集架构虚拟化 B. 硬件抽象层虚拟化

C. 操作系统层虚拟化 D. 编程语言层虚拟化

4.平台即服务的英文缩写是 ( )
A. PaaS B．SaaS C. IaaS D. CaaS

5.hθ(x)=θTX可作为下列哪种模型的公式 ( )
A、逻辑回归 B、多元线性回归
C、多重线性回归 D、神经网络

6.下列哪项是MapReduce编程模型不能解决的问题是 ( )
A．层次聚类法 B．K-means聚类
C．朴素贝叶斯分类 D．Top K问题

7.在MapReduce程序中，map()函数输入的数据格式是： ( )

A．字符串 B．整型 C．键值对 D．数组

8.下列哪项不属于聚类算法。 ( )

A、K-中心点 B、KNN

C、K-means D、DBScan

9.HDFS是基于流数据模式访问和处理超大文件的需求而开发的，适合的读写任务是 ____。 ( )

A．一次写入，少次读 B．多次写入，少次读

C．多次写入，多次读 D．一次写入，多次读

10.关于 SecondaryNameNode 下面哪项是正确的： ( )

A. 它是 NameNode 的热备 B. 它对内存没有要求

C. 它帮助NameNod合并编辑日志，减少NameNode启动时间

D. SecondaryNameNode应与NameNode部署到一个节点

得分	评卷人

二、填空题（每空 2 分，共 20 分）

1. 按技术路线来看，Hadoop属于云计算（填资源整合型或资源切分型）。

2. 大数据的两大核心技术是和分布式计算。

3. Yarn负责任务分配和调度的节点称为，负责任务执行的节点称为。

4. 回归与分类的区别是，的预测值是连续值（填回归或分类）。

5．决策树是用样本的属性作为结点，用作为分支的树结构。

6. 经典的决策树分类算法是，采用信用增益率代替信息增益的决策树分类算法是。

7. Bootstrap重采样技术采用抽样(填有放回或无放回)。

8. 神经网络中的就是一个逻辑回归函数。

access下载为excel格式得分	评卷人

三、简答题（每小题5分，共30分）

1. 简述MapReduce四个阶段的任务。

2. 什么是训练集，聚类的训练集和分类的训练集有何区别？

3. 简述使用逻辑回归进行分类的步骤。

4. 简述Hadoop完全分布式模式下，主节点和从节点中会启动哪些和Hadoop相关的进程。

5. 简述Hadoop2.X的系统架构，以及与Hadoop1.X架构的区别。

6. 神经网络由哪几层组成，每层的节点数如何确定？

得分	评卷人

四、应用题（每小题10分，共30分）

1.给定事务数据如下表。假定数据包含频繁项集L＝{A，B，D}。问可以由L产生哪些关联规则，并分别列出其可信度(Confidence)? 若最小可信度定义为80%,则产生的关联规则中哪些是强关关联规则。

pycharm免费版

ID	multisim灯泡在哪购买商品
1	{B,A,D}
2	{D,A,C,E,B}
3	{C,A,B,E}
4	{K,A,D,B}

2. 设有甲、乙、丙三个车间生产同一种产品，已知各车间的产量分别占全厂产量的25%，35%，40%，各车间的产品次品率依次为5%，4%，2%，现从待出厂的产品中检查出一个次品，试用朴素贝叶斯分类预测该次品最有可能是由哪个车间生产的。并指出该分类的特

征属性和类别属性各是什么。

3. 写出如下Hadoop操作的命令：①启动HDFS；②在HDFS文件系统根目录下创建一个input的目录；③将本机主目录下的文件上传到HDFS中的input目录下；④列出input目录下的内容；⑤将HDFS文件系统中input目录下的文件下载到本机的主目录下。

衡阳师范学院 2019-2020学年第一学期

计算机科学与技术学院软件工程专业 2017级

《云计算与大数据处理原理》期末考试试题A卷

答案及评分标准

一、单选题（每小题2分，共20分）

1-5 CCBAB 6-10 ACBDC

二、填空题（每空 2 分，共 20 分）

1. 资源整合型 2.分布式存储（或HDFS）

3. ResourceManager NodeManager

4. 回归 5. 属性值

6. ID3 C4.5

7. 有放回 8. 神经元（或节点）

三、简答题（每小题5分，共30分）

1. 简述MapReduce四个阶段的任务。

答：Split阶段：对数据集进行分片拆分。（1分）

Map是映射，负责数据的过滤分法，将原始数据转化为键值对；（1分）

Shuffle阶段：对Map的输出进行一定的排序与分割，将相同键的项组合在一起，然后再交给对应的Reduce（1分）

Reduce阶段（需要编码）：Reduce是合并，将具有相同key值的value进行处理后再输出新的键值对作为最终结果（2分）

2. 什么是训练集，聚类的训练数据和分类的训练数据有何区别？

训练集是样本集的一部分，在机器学习中用于建立模型和估计模型参数。（2分）

聚类的训练集无类别属性（或无标签），而分类的训练集有类别属性（或有标签）。（3分）

3. 简述使用逻辑回归进行分类的步骤。

① 建立逻辑回归模型（1分），② 根据最大似然估计法估计多元线性回归方程的参数（1分）；③ 进行逻辑回归函数的映射（1分）；④将待分类数据代入到逻辑回归方程中，根据结果值是否大于0.5判断样本的类别。（2分）

688IT编程网

大数据分析实用教程——基于Python实现试卷17软工大数据A附答案

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

688IT编程网

大数据分析实用教程——基于Python实现试卷17软工大数据A附答案

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

m函数数字提取

jest断言方法大全

中兴ZXSEC US 管理员手册

keras系列(一):参数设置

Qt从QString中提取出数字

element input 金额千分位格式化

freemaker 参数解析正则

C#正则验证数字

form表单验证正则

scanf正则表达式用法

grafana value的正则表达式

Android平台浮点数运算应用

js-(JS正则表达式验证数字)

判断Python输入是否是整数,字符,或浮点数

c语言 sscanf 正则规则

从文本中提取数值技巧

js将整数转换成两位浮点数的方法

vue正则限制浮点数

8到20的结尾的正则

shell 正则表达式 最后一行

最新文章

应用程序的安全检测方法、装置、电子设备和存储介质

VBA之正则表达式(1)--基础篇

代码编辑的辅助方法、装置及电子设备

SHELL查字符串中包含字符的命令

String方法中replace和replaceAll的区别详解(源码分析)

双字节符号正则

标签列表

nginx map用法正则

shell 正则表达式最后一行