衡阳师范学院  2019-2020substring的用法函数学年 第一学期
计算机科学与技术学院 软件工程专业 2017级
《云计算与大数据处理原理》期末考试试题A卷
考核类型:闭卷            考试时量: 120  分钟
题  号
总分
合分人
复查人
分值
20
20
30
30
100
得分
ps教程抠图
学  院
专  业
年 级、班 级
学  号
姓  名
 
得  分
评卷人
一、单选题(每小题2分,共20分)
1.以下哪项是大数据的特点                                  (      )
A、数据量大                        B、数据类型多样           
C、价值密度高                        D、数据真实性
2.云计算的关键技术包括下列哪项                      (      )
    A、负载均衡                          B、虚拟化       
    C、串行计算                            D、按需部署
python数据分析基础教程答案3.按照虚拟化的层次,Vmware虚拟机属于                (      )
A. 指令集架构虚拟化              B. 硬件抽象层虚拟化   
C. 操作系统层虚拟化                D. 编程语言层虚拟化
4.平台即服务的英文缩写是                              (      )
A. PaaS          B.SaaS            C. IaaS            D. CaaS
5.hθ(x)=θTX可作为下列哪种模型的公式                  (        )
A、逻辑回归                            B、多元线性回归
C、多重线性回归                          D、神经网络
6.下列哪项是MapReduce编程模型能解决的问题是 (          )
      A.层次聚类法                      B.K-means聚类
      C.朴素贝叶斯分类                  D.Top K问题
7.在MapReduce程序中,map()函数输入的数据格式是:    (        )
A.字符串            B.整型            C.键值对            D.数组
8.下列哪项不属于聚类算法。                            (        )
A、K-中心点                            B、KNN
C、K-means                            D、DBScan
9.HDFS是基于流数据模式访问和处理超大文件的需求而开发的,适合的读写任务是 ____。                                    (        )
A.一次写入,少次读                B.多次写入,少次读
C.多次写入,多次读                D.一次写入,多次读
10.关于 SecondaryNameNode 下面哪项是正确的:    (        )
A. 它是 NameNode 的热备        B. 它对内存没有要求
C. 它帮助NameNod合并编辑日志,减少NameNode启动时间
D. SecondaryNameNode应与NameNode部署到一个节点
得  分
评卷人
二、填空题(每空 2 分,共 20 分)
1. 按技术路线来看,Hadoop属于                        云计算(填资源整合型或资源切分型)。
2. 大数据的两大核心技术是                    和分布式计算。
3. Yarn负责任务分配和调度的节点称为                    ,负责任务执行的节点称为                       
4. 回归与分类的区别是,            的预测值是连续值(填回归或分类)。
5.决策树是用样本的属性作为结点,用          作为分支的树结构。
6. 经典的决策树分类算法是                ,采用信用增益率代替信息增益的决策树分类算法是               
7. Bootstrap重采样技术采用                抽样(填有放回或无放回)。
8. 神经网络中的                就是一个逻辑回归函数。
 
access下载为excel格式得  分
评卷人
 
三、简答题(每小题5分,共30分)
1. 简述MapReduce四个阶段的任务。
2. 什么是训练集,聚类的训练集和分类的训练集有何区别?
3. 简述使用逻辑回归进行分类的步骤。
4. 简述Hadoop完全分布式模式下,主节点和从节点中会启动哪些和Hadoop相关的进程。
5. 简述Hadoop2.X的系统架构,以及与Hadoop1.X架构的区别。
6. 神经网络由哪几层组成,每层的节点数如何确定?
得  分
评卷人
 
四、应用题(每小题10分,共30分)
1.给定事务数据如下表。假定数据包含频繁项集L={A,B,D}。问可以由L产生哪些关联规则,并分别列出其可信度(Confidence)? 若最小可信度定义为80%,则产生的关联规则中哪些是强关关联规则。
pycharm免费版
ID
multisim灯泡在哪购买商品
1
{B,A,D}
2
{D,A,C,E,B}
3
{C,A,B,E}
4
{K,A,D,B}
2. 设有甲、乙、丙三个车间生产同一种产品,已知各车间的产量分别占全厂产量的25%,35%,40%,各车间的产品次品率依次为5%,4%,2%,现从待出厂的产品中检查出一个次品,试用朴素贝叶斯分类预测该次品最有可能是由哪个车间生产的。并指出该分类的特
征属性和类别属性各是什么。
3. 写出如下Hadoop操作的命令:①启动HDFS;②在HDFS文件系统根目录下创建一个input的目录;③将本机主目录下的文件上传到HDFS中的input目录下;④列出input目录下的内容;⑤将HDFS文件系统中input目录下的文件下载到本机的主目录下。
衡阳师范学院  2019-2020学年 第一学期
计算机科学与技术学院 软件工程专业 2017级
《云计算与大数据处理原理》期末考试试题A卷
答案及评分标准
一、单选题(每小题2分,共20分)
1-5 CCBAB        6-10 ACBDC   
二、填空题(每空 2 分,共 20 分)
1. 资源整合型                2.分布式存储(或HDFS)
3. ResourceManager            NodeManager
4. 回归                        5. 属性值
6. ID3                        C4.5
7. 有放回                    8. 神经元(或节点)
三、简答题(每小题5分,共30分)
1. 简述MapReduce四个阶段的任务。
答:Split阶段:对数据集进行分片拆分。(1分)
Map是映射,负责数据的过滤分法,将原始数据转化为键值对;(1分)
Shuffle阶段:对Map的输出进行一定的排序与分割,将相同键的项组合在一起,然后再交给对应的Reduce(1分)
Reduce阶段(需要编码):Reduce是合并,将具有相同key值的value进行处理后再输出新的键值对作为最终结果(2分)
2. 什么是训练集,聚类的训练数据和分类的训练数据有何区别?
训练集是样本集的一部分,在机器学习中用于建立模型和估计模型参数。(2分)
聚类的训练集无类别属性(或无标签),而分类的训练集有类别属性(或有标签)。(3分)
3. 简述使用逻辑回归进行分类的步骤。
① 建立逻辑回归模型(1分),② 根据最大似然估计法估计多元线性回归方程的参数(1分);③ 进行逻辑回归函数的映射(1分);④将待分类数据代入到逻辑回归方程中,根据结果值是否大于0.5判断样本的类别。(2分)

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。