衡阳师范学院 2019-2020substring的用法函数学年 第一学期
计算机科学与技术学院 软件工程专业 2017级
《云计算与大数据处理原理》期末考试试题A卷
考核类型:闭卷 考试时量: 120 分钟
题 号 | 一 | 二 | 三 | 四 | 总分 | 合分人 | 复查人 |
分值 | 20 | 20 | 30 | 30 | 100 | ||
得分 | |||||||
学 院 |
专 业 |
年 级、班 级 |
学 号 |
姓 名 |
得 分 | 评卷人 |
一、单选题(每小题2分,共20分)
1.以下哪项不是大数据的特点 ( )
A、数据量大 B、数据类型多样
C、价值密度高 D、数据真实性
A、数据量大 B、数据类型多样
C、价值密度高 D、数据真实性
2.云计算的关键技术不包括下列哪项 ( )
A、负载均衡 B、虚拟化
C、串行计算 D、按需部署
A、负载均衡 B、虚拟化
C、串行计算 D、按需部署
python数据分析基础教程答案3.按照虚拟化的层次,Vmware虚拟机属于 ( )
A. 指令集架构虚拟化 B. 硬件抽象层虚拟化
C. 操作系统层虚拟化 D. 编程语言层虚拟化
4.平台即服务的英文缩写是 ( )
A. PaaS B.SaaS C. IaaS D. CaaS
A. PaaS B.SaaS C. IaaS D. CaaS
5.hθ(x)=θTX可作为下列哪种模型的公式 ( )
A、逻辑回归 B、多元线性回归
C、多重线性回归 D、神经网络
A、逻辑回归 B、多元线性回归
C、多重线性回归 D、神经网络
6.下列哪项是MapReduce编程模型不能解决的问题是 ( )
A.层次聚类法 B.K-means聚类
C.朴素贝叶斯分类 D.Top K问题
A.层次聚类法 B.K-means聚类
C.朴素贝叶斯分类 D.Top K问题
7.在MapReduce程序中,map()函数输入的数据格式是: ( )
A.字符串 B.整型 C.键值对 D.数组
8.下列哪项不属于聚类算法。 ( )
A、K-中心点 B、KNN
C、K-means D、DBScan
9.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,适合的读写任务是 ____。 ( )
A.一次写入,少次读 B.多次写入,少次读
C.多次写入,多次读 D.一次写入,多次读
10.关于 SecondaryNameNode 下面哪项是正确的: ( )
A. 它是 NameNode 的热备 B. 它对内存没有要求
C. 它帮助NameNod合并编辑日志,减少NameNode启动时间
D. SecondaryNameNode应与NameNode部署到一个节点
得 分 | 评卷人 |
二、填空题(每空 2 分,共 20 分)
1. 按技术路线来看,Hadoop属于 云计算(填资源整合型或资源切分型)。
2. 大数据的两大核心技术是 和分布式计算。
3. Yarn负责任务分配和调度的节点称为 ,负责任务执行的节点称为 。
4. 回归与分类的区别是, 的预测值是连续值(填回归或分类)。
5.决策树是用样本的属性作为结点,用 作为分支的树结构。
6. 经典的决策树分类算法是 ,采用信用增益率代替信息增益的决策树分类算法是 。
7. Bootstrap重采样技术采用 抽样(填有放回或无放回)。
8. 神经网络中的 就是一个逻辑回归函数。
access下载为excel格式得 分 | 评卷人 |
三、简答题(每小题5分,共30分)
1. 简述MapReduce四个阶段的任务。
2. 什么是训练集,聚类的训练集和分类的训练集有何区别?
3. 简述使用逻辑回归进行分类的步骤。
4. 简述Hadoop完全分布式模式下,主节点和从节点中会启动哪些和Hadoop相关的进程。
5. 简述Hadoop2.X的系统架构,以及与Hadoop1.X架构的区别。
6. 神经网络由哪几层组成,每层的节点数如何确定?
得 分 | 评卷人 |
四、应用题(每小题10分,共30分)
1.给定事务数据如下表。假定数据包含频繁项集L={A,B,D}。问可以由L产生哪些关联规则,并分别列出其可信度(Confidence)? 若最小可信度定义为80%,则产生的关联规则中哪些是强关关联规则。
ID | pycharm免费版multisim灯泡在哪购买商品 |
1 | {B,A,D} |
2 | {D,A,C,E,B} |
3 | {C,A,B,E} |
4 | {K,A,D,B} |
2. 设有甲、乙、丙三个车间生产同一种产品,已知各车间的产量分别占全厂产量的25%,35%,40%,各车间的产品次品率依次为5%,4%,2%,现从待出厂的产品中检查出一个次品,试用朴素贝叶斯分类预测该次品最有可能是由哪个车间生产的。并指出该分类的特
征属性和类别属性各是什么。
3. 写出如下Hadoop操作的命令:①启动HDFS;②在HDFS文件系统根目录下创建一个input的目录;③将本机主目录下的文件上传到HDFS中的input目录下;④列出input目录下的内容;⑤将HDFS文件系统中input目录下的文件下载到本机的主目录下。
衡阳师范学院 2019-2020学年 第一学期
计算机科学与技术学院 软件工程专业 2017级
《云计算与大数据处理原理》期末考试试题A卷
答案及评分标准
一、单选题(每小题2分,共20分)
1-5 CCBAB 6-10 ACBDC
二、填空题(每空 2 分,共 20 分)
1. 资源整合型 2.分布式存储(或HDFS)
3. ResourceManager NodeManager
4. 回归 5. 属性值
6. ID3 C4.5
7. 有放回 8. 神经元(或节点)
三、简答题(每小题5分,共30分)
1. 简述MapReduce四个阶段的任务。
答:Split阶段:对数据集进行分片拆分。(1分)
Map是映射,负责数据的过滤分法,将原始数据转化为键值对;(1分)
Shuffle阶段:对Map的输出进行一定的排序与分割,将相同键的项组合在一起,然后再交给对应的Reduce(1分)
Reduce阶段(需要编码):Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果(2分)
2. 什么是训练集,聚类的训练数据和分类的训练数据有何区别?
训练集是样本集的一部分,在机器学习中用于建立模型和估计模型参数。(2分)
聚类的训练集无类别属性(或无标签),而分类的训练集有类别属性(或有标签)。(3分)
3. 简述使用逻辑回归进行分类的步骤。
① 建立逻辑回归模型(1分),② 根据最大似然估计法估计多元线性回归方程的参数(1分);③ 进行逻辑回归函数的映射(1分);④将待分类数据代入到逻辑回归方程中,根据结果值是否大于0.5判断样本的类别。(2分)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论