大数据理论考试(试卷编号261)
1.[单选题]假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500*x。那么这n组数据集是否一样()
A)一样
B)不一样
C)无法确定
答案:C
解析:只比较平均值、方差、相关系数和回归方程,无法确定数据集是否相同,还需比较Anscombe's quartet。
2.[单选题]大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。
A)HDFS
B)Postgresql
C)Hive
D)HBase
答案:B
解析:Postgresql并非分布式存储。
3.[单选题]正则化是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中,正则化在preprocessing模块中如何实现()。
A)preprocessing.maxabs_scale()方法
B)preprocessing.RobustScaler()方法
alize()方法
D)preprocessing.Binarizer()方法
答案:C
解析:preprocessing模块中函数normalize提供了一个快速有简单的方式在一个单向量上来实现正则化的功能。
4.[单选题]词袋模型中的文本向量每个元素表示该词的()。
A)频率
B)顺序
C)含义
D)语义关
答案:A
解析:词袋模型是最基础的文本表示模型,就是把每一篇文章看成一袋子单词,并忽略每个词出现的顺序。每篇文章可以表示成一个长向量,向量中的每一维代表一个单词,而该维对应的权重代表这
5.[单选题]下列关于RBM说法错误的是(__)。
A)学习过程很快
B)R训练可以看作对一个深层网络的网络权值参数的初始化
正则化的回归分析可以避免C)RBM不用人工选择特征
D)RBM有标签样本
答案:A
解析:RBM学习率更新相比DBN速度较慢。
6.[单选题]一幅数字图像是()。
A)一个观测系统
B)一个由许多像素排列而成的实体
C)一个2-D数组中的元素
D)一个3-间中的场
答案:C
解析:数字图像,又称数码图像或数位图像,是二维图像用有限数字数值像素的表示。
7.[单选题]输入图像已被转换为大小为28×28的矩阵和大小为7×7的步幅为1的核心/滤波器。卷积矩阵的大小是多少()
A)22 X 22
B)21 X 21
C)28 X 28
D)7 X
答案:A
解析:28-7+1=22。
8.[单选题]一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为
y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。
A)身高一定是145.83cm
B)身高一定超过146.00cm
C)身高一定高于145.00cm
D)身高在145.83cm左右
答案:D
解析:回归直线方程预测时,出现的误差方向不能确定。
9.[单选题]MapReduce的Shuffle过程中哪个操作是最后做的()
A)溢写
B)分区
C)排序
D)合并
答案:D
段。shuflle中的执行顺序是先分区,然后在溢写之前进行排序,最后溢出的多个磁盘文件会进行合并成一个大文件。
10.[单选题]通常“落伍者”是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。
A)分布式计算
B)惰性计算
C)推测性执行的任务备份
D)先进先出
答案:C
解析:MapReduce采用“推测性执行的任务备份”机制-当作业中大多数的任务都已经完成时,系统在几个空闲的节点上调度执行剩余任务的备份,并在多个Worker上同时进行相同的剩余任务。
11.[单选题]下面哪一个命令是spark运行pi的命令
A)run-example SparkPi 2
B)Spark-shell SparkPi 2
C)hadoop-daemon jar SparkPi 2
D)yarn jar Spark
答案:A
解析:
12.[单选题]MapReduce中,Shuffle操作的作用是()。
A)合并
B)排序
C)降维
D)分区
答案:B
解析:Shuffle-确保每个reduce()函数的输入都按键排序。
13.[单选题]机器学习中,基于样本分布的距离是以下哪一个()
A)马氏距离
B)欧式距离
C)曼哈顿距离
D)闵可夫斯基距离
答案:A
解析:马氏距离是基于样本分布的一种距离。
14.[单选题]下列哪个神经网络结构会发生权重共享(__)。
A)卷积神经网络
B)循环神经网络
C)全连接神经网络
答案:D
解析:CNN与RNN网络会发生权重共享。
15.[单选题]最早被提出的循环神经网络门控算法是什么()
A)长短期记忆网络
B)门控循环单元网络
C)堆叠循环神经网络
D)双向循环神经网
答案:A
解析:LSTM是最早被提出的循环神经网络门控算法。长短期记忆网络(Long-Short Term
Memory,LSTM)论文首次发表于1997年11月15日。门控循环单元网络(GRU)论文发表于2014年。堆叠循环神经网络(SRNN)论文发表于2017年。双向循环神经网络(Bidirectional recurrent neural networks)发表于1997年11月。
16.[单选题]Hadoop常用命令中,查看指定目录下的所有文件及子目录的命令是()
A)hdfs dfs -ls [文件目录]
B)hdfs dfs -du [文件目录]
C)hdfs dfs -ls -R [文件目录]
D)hdfs dfs -du -R [文件目录]
答案:C
解析:
17.[单选题]一篇文章中某些名词的TF-IDF值比较大,则说明()。
A)这些名词对这篇文章的区分度比较高
B)这些名词对这篇文章的区分度比较低
C)不能说明什么
D)以上答案都不正
答案:A
解析:TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。名词的TF-IDF值越大说明这些名词对这篇文章的区分度越高。
18.[单选题]决策树模型的规模应当是()。
A)越复杂越好
B)越简单越好
C)适当限制其复杂程度
D)尽可能利用所有特
答案:C
解析:决策树模型的规模复杂可能产生过拟合,因此并非越复杂做好,应适当限制其复杂程度。
19.[单选题]()不是Spark服务层的功能。
A)SQL查询
C)机器学习
D)内存计
答案:D
解析:Spark服务层主要提供面向特定类型的计算服务,如SQL查询、实时处理、机器学习以及图计算。
20.[单选题]关于数据相关性,以下说法错误的是()。
A)关性体现了大数据的灵魂
B)关性思维实现了从“为什么”到“是什么”的思维转变
C)关性关注事物的因果关系
D)关性关注事物的相关关系
答案:C
解析:相关性,是指两个变量的关联程度,可以有正相关、负相关、不相关。
21.[单选题]()算法是分类算法。
A)DBSCAN
B)C4.5
C)K-Mean
D)EM
答案:B
解析:C4.5是分类算法;DBSCAN、K-Mean、EM是聚类算法。
22.[单选题]关系云的一个重要功能是提供()。
A)数据库即服务
B)虚拟服务
C)弹性计算
D)按需服务
答案:A
解析:关系云的一个重要功能是提供“数据库即服务(Database as a Service)”,用户无须在本机安装数据库管理软件,也不需要搭建自己的数据管理集,而只需要使用服务提供商提供的数据库服务。
23.[单选题]()是以样本统计量作为未知总体参数的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值
A)参数估计
B)逻辑分析
C)方差分析
D)回归分析
答案:A
解析:参数估计,是统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。