大数据理论考试(试卷编号262)
说明:答案和解析在试卷最后
1.[单选题]假设有n组数据集,每组数据集中,x的平均值都是9,x的方差都是11,y的平均值都是7.50,x与y的相关系数都是0.816,拟合的线性回归方程都是y=3.00+0.500*x。那么这n组数据集是否一样()
A)一样
B)不一样
C)无法确定
2.[单选题]大数据平台核心分布式存储与计算组件采用Hadoop技术体系中分布式存储、分布式计算框架,及Spark等开源产品和技术,实现对数据的安全控制和管理功能,其中分布式存储不包括()。
A)HDFS
B)Postgresql
C)Hive
D)HBase
3.[单选题]正则化是将样本在向量空间模型上的一个转换,经常被使用在分类与聚类中,正则化在preprocessing模块中如何实现()。
A)preprocessing.maxabs_scale()方法
B)preprocessing.RobustScaler()方法
alize()方法
D)preprocessing.Binarizer()方法
4.[单选题]词袋模型中的文本向量每个元素表示该词的()。
A)频率
B)顺序
C)含义
D)语义关
5.[单选题]下列关于RBM说法错误的是(__)。
A)学习过程很快
B)R训练可以看作对一个深层网络的网络权值参数的初始化
C)RBM不用人工选择特征
D)RBM有标签样本
6.[单选题]一幅数字图像是()。
A)一个观测系统
B)一个由许多像素排列而成的实体
C)一个2-D数组中的元素
D)一个3-间中的场
7.[单选题]输入图像已被转换为大小为28×28的矩阵和大小为7×7的步幅为1的核心/滤波器。卷积矩阵的大小是多少()
A)22 X 22
B)21 X 21
C)28 X 28
D)7 X
8.[单选题]一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为
y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。
A)身高一定是145.83cm
B)身高一定超过146.00cm
C)身高一定高于145.00cm
D)身高在145.83cm左右
9.[单选题]MapReduce的Shuffle过程中哪个操作是最后做的()
A)溢写
B)分区
C)排序
D)合并
10.[单选题]通常“落伍者”是影响MapReduce总执行时间的主要影响因素之一,为此MapReduce采用()机制来解决。
A)分布式计算
B)惰性计算
C)推测性执行的任务备份
D)先进先出
11.[单选题]下面哪一个命令是spark运行pi的命令
A)run-example SparkPi 2
B)Spark-shell SparkPi 2
C)hadoop-daemon jar SparkPi 2
D)yarn jar Spark
12.[单选题]MapReduce中,Shuffle操作的作用是()。
A)合并
B)排序
C)降维
13.[单选题]机器学习中,基于样本分布的距离是以下哪一个()
A)马氏距离
B)欧式距离
C)曼哈顿距离
D)闵可夫斯基距离
14.[单选题]下列哪个神经网络结构会发生权重共享(__)。
A)卷积神经网络
B)循环神经网络
C)全连接神经网络
D)选项A和
15.[单选题]最早被提出的循环神经网络门控算法是什么()
A)长短期记忆网络
B)门控循环单元网络
C)堆叠循环神经网络
D)双向循环神经网
16.[单选题]Hadoop常用命令中,查看指定目录下的所有文件及子目录的命令是()
A)hdfs dfs -ls [文件目录]
B)hdfs dfs -du [文件目录]
C)hdfs dfs -ls -R [文件目录]
D)hdfs dfs -du -R [文件目录]
17.[单选题]一篇文章中某些名词的TF-IDF值比较大,则说明()。
A)这些名词对这篇文章的区分度比较高
B)这些名词对这篇文章的区分度比较低
C)不能说明什么
D)以上答案都不正
18.[单选题]决策树模型的规模应当是()。
A)越复杂越好
B)越简单越好
C)适当限制其复杂程度
D)尽可能利用所有特
19.[单选题]()不是Spark服务层的功能。
A)SQL查询
B)实时处理
C)机器学习
20.[单选题]关于数据相关性,以下说法错误的是()。
A)关性体现了大数据的灵魂
B)关性思维实现了从“为什么”到“是什么”的思维转变
C)关性关注事物的因果关系
D)关性关注事物的相关关系
21.[单选题]()算法是分类算法。
A)DBSCAN
B)C4.5
C)K-Mean
D)EM
22.[单选题]关系云的一个重要功能是提供()。
A)数据库即服务
B)虚拟服务
C)弹性计算
D)按需服务
23.[单选题]()是以样本统计量作为未知总体参数的估计量,并通过对样本单位的实际观察取得样本数据,计算样本统计量的取值作为被估计参数的估计值
A)参数估计
B)逻辑分析
C)方差分析
D)回归分析
24.[单选题]关于数据清洗,不正确的说法是()。
A)单数据源,主键取值不能重复
B)多数据源会存在数据重复,单位不一致的问题
C)连续型数据不存在冗余问题
D)缺失值可以采用删除和填补等方法处理
25.[单选题]关于Maxcompute中的运算符的说法,正确的是:()。
正则匹配一张图片A)String类型可以和其他任意类型进行隐式转换:Boolean不行
B)除boolean外,其他类型不允许参与逻辑运算,也不允许其他类型的隐式类型转换
C)只有bigint、double才能参与算数运算:只有string、bigint、double和Decimal才能参与算术运算
D)特殊的关系运算符rlike表示右侧开始匹配
26.[单选题]基于Bagging的集成学习代表算法有()。
A)Adaboost
D)随机森林
27.[单选题]BP神经网络具有很的表示能力,它经常遭遇(),其训练误差持续降低,但测试误差却可能上升。
A)欠拟合
B)误差过大
C)误差过小
D)过拟
28.[单选题]有关Hadoop的陈述哪个是错误的()。
A)它运行在通用硬件上;
B)它是Apache软件基金会(ASF)下的项目;
C)它是最好的实时流式数据处理框架;
D)Hadoop对数据的处理是有延迟的;
29.[单选题]以下描述中不属于“规整数据(TidyData)”三个基本原则的是()。
A)每一类观察单元构成一个关系(表)
B)每个观察占且仅占一行
C)每个变量占且仅占一列
D)每个观察占且仅占一个关系(表)
30.[单选题]新兴数据管理技术主要包括NoSQL技术、NewSQL技术和()。
A)数据仓库
B)关系云
C)数据库系统
D)文件系统
31.[单选题]以下选项中说法不正确的是()。
A)解释是将源代码逐条转换成目标代码同时逐条运行目标代码的过程
B)编译是将源代码转换成目标代码的过程
C)C语言是静态语言,Python语言是脚本语言
D)静态语言采用解释方式执行,脚本语言采用编译方式执行
32.[单选题]下列哪个组件不属于Hive架构()
A)MySQL
B)TaskManager
C)HDFS
D)Clien
33.[单选题]如果我们现有一个安装2.6.5版本的hadoop集,在不修改默认配置的情况下存储200个
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论