大数据理论考试(习题卷12)
说明:答案和解析在试卷最后
第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]()试图学得一个属性的线性组合来进行预测的函数。
A)决策树
B)贝叶斯分类器
C)神经网络
D)线性模
2.[单选题]随机试验所有可能出现的结果,称为()
A)基本事件
B)样本
C)全部事件
D)样本空间
3.[单选题]DWS实例中,下列哪项不是主备配置的:
A)CMS
B)GTM
C)OMS
D)coordinato
4.[单选题]数据科学家可能会同时使用多个算法(模型)进行预测,并且最后把这些算法的结果集成起来进行最后的预测(集成学习),以下对集成学习说法正确的是()。
A)单个模型之间具有高相关性
B)单个模型之间具有低相关性
C)在集成学习中使用“平均权重”而不是“投票”会比较好
D)单个模型都是用的一个算法
5.[单选题]下面算法属于局部处理的是()。
A)灰度线性变换
B)二值化
C)傅里叶变换
D)中值滤
6.[单选题]中文同义词替换时,常用到Word2Vec,以下说法错误的是()。
A)Word2Vec基于概率统计
B)Word2Vec结果符合当前预料环境
C)Word2Vec得到的都是语义上的同义词
D)Word2Vec受限于训练语料的数量和质
7.[单选题]一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归直线方程为y=7.19x+73.93,据此可以预测这个孩子10岁时的身高,则正确的叙述是()。
A)身高一定是145.83cm
B)身高一定超过146.00cm
C)身高一定高于145.00cm
D)身高在145.83cm左右
8.[单选题]有关数据仓库的开发特点,不正确的描述是()。
A)数据仓库开发要从数据出发;
B)数据仓库使用的需求在开发出去就要明确;
C)数据仓库的开发是一个不断循环的过程,是启发式的开发;
D)在数据仓库环境中,并不存在操作型环境中所固定的和较确切的处理流,数据仓库中数据分析和处理更灵活,且没有固定的模式
9.[单选题]由于不同类别的关键词对排序的贡献不同,检索算法一般把查询关键词分为几类,以下哪一类不属于此关键词类型的是()。
A)引用词
B)普通关键词
C)高频词汇
D)扩展关键
10.[单选题]数据的原始内容及其备份数据,是数据产品的研发的哪个阶段()。
A)零次数据
B)一次数据
C)二次数据
D)采集数据
11.[单选题]()是Spark中的抽象数据模型。
A)RDD
B)Scheduler
C)Storage
D)Shuffl
12.[单选题]语音识别的应用场景包括()。
A)语音转文本
B)语音合成
C)人机交互
D)以上答案都正
13.[单选题]PHOTO_PATH = "./photo/{}.jpg"指令可以实现()。
A)复制jpg文件到photo目录下
B)定义一个名为photo的存储路径
C)打开photo里所有的jpg文件
D)重命名目录
14.[单选题]以下哪种参数须以正确的顺序传入函数,调用时的数量必须和声明时的一样()。
A)位置参数
B)默认值参数
C)可变参数
D)关键字参数
15.[单选题]以下()不属于广义上的数据可视化技术。
A)类别可视化
B)科学可视化
C)信息可视化
D)可视分析学
16.[单选题]在IBMPASS中,聚类算法分为分层聚类、Kohonennetwork、K平均值聚类和()四种。
A)系统聚类
B)两步聚类
C)模型聚类
D)其它聚类
17.[单选题]下列不是数据科学项目的主要角()。
A)项目发起人
B)项目经理
C)操作人员
D)验收人员
18.[单选题]机器学习和深度学习的关系是(__)。
A)深度学习包含机器学习
B)机器学习包含深度学习
C)二者是独立的
D)二者相互促
19.[单选题]选择哪一个解作为输出,将由学习算法的归纳偏好决定,常见的做法是引入()。
正则化描述正确的是
A)线性回归
B)线性判别分析
C)正则化项
D)偏置项
20.[单选题]()是指针对用户非常明确的数据查询和处理任务,以高性能和高吞吐量的方式实现大众化的服务,是数据价值最重要也是最直接的发现方式。
A)数据服务
B)数据分析
C)数据治理
D)数据应用
21.[单选题]假设在庞大的数据集上使用Logistic回归模型,可能遇到一个问题,Logistic回归需要很长时间才能训练,如果对相同的数据进行逻辑回归,如何花费更少的时间,并给出比较相似的精度()。
A)降低学习率,减少迭代次数
B)降低学习率,增加迭代次数
C)提高学习率,增加迭代次数
D)增加学习率,减少迭代次
22.[单选题]下列关于支持向量回归说法错误的是()。
A)支持向量回归是将支持向量的方法应用到回归问题中
B)支持向量回归同样可以应用核函数求解线性不可分的问题
C)同分类算法不同的是,支持向量回归要最小化一个凹函数
D)支持向量回归的解是稀疏
23.[单选题]scipy中模块stats的作用是()。
A)统计
B)差值计算
C)程序输入输出
D)稀疏矩阵
24.[单选题]对模型进行超参数优化详尽搜索指定参数的估计值使用以下哪种方法()。
A)ParameterGrid()
B)ParameterSampler()
C)GridSearchCV()
D)RandomizedSearchCV()
25.[单选题]a = [1,2,3.4,5],切片时如果要取[2,3.4],正确的选项是()。
A)a[1:4]
B)a[-2:]
C)a[1:-1]
D)a[::2]
26.[单选题]关于Datanode的描述错误的是()。
A)Datanode负责处理文件系统客户端的文件读写请求
B)Datanode进行数据块的创建、删除和复制工作
C)集中的Datanode一般是一个节点一个
D)文件的副本系数由tanode储存
27.[单选题]select * from student 该代码中的 * 号,表示的正确含义是
A)普通的字符*号
B)错误信息
C)所有的字段名
D)模糊查
28.[单选题]对于线性回归模型,包括附加变量在内,以下的可能正确的是()。
1) R-Squared 和 Adjusted R-squared都是递增的
2) R-Squared 是常量的,Adjusted R-squared是递增的
3) R-Squared 是递减的, Adjusted R-squared 也是递减的
4) R-Squared 是递减的, Adjusted R-squared是递增的
A)1 和 2
B)1 和 3
C)2 和 4
D)以上都不是
29.[单选题]高通滤波后的图像通常较暗,为改善这种情况,将高通滤波器的转移函数加上一常数量以便于引入一些低频分量。这样滤波器叫()。
A)巴特沃斯高通滤波器
B)高频提升滤波器
C)高频加强滤波器
D)理想高通滤波
30.[单选题]例如数据库中有A表,包括学生,学科,成绩三个字段,如何查询最高分>80的学科?
A)SELECT MAX(成绩) FROM A GROUP BY学科 HAVING MAX(成绩)>80;
B)SELECT学科 FROM A GROUP BY学科 HAVING成绩>80;
C)SELECT学科 FROM A GROUP BY学科 HAVING MAX(成绩)>80;
D)SELECT学科 FROM A GROUP BY学科 WHERE MAX(成绩)>80
31.[单选题]已知一组数据的协方差矩阵P,下面关于主分量说法错误的是()。
A)主分量分析的最佳准则是对一组数据进行按一组正交基分解, 在只取相同数量分量的条件下,以均方误差计算截尾误差最小
B)在经主分量分解后,协方差矩阵成为对角矩阵
C)主分量分析就是K-L变换
D)主分量是通过求协方差矩阵的特征值得到
32.[单选题]长短时记忆网络属于一种()。
A)全连接神经网络
B)门控RNN
C)BP神经网络
D)双向RN
33.[单选题]以下说法错误的是:(__)。
A)当目标函数是凸函数时,梯度下降的解时全局最优解
B)进行PCA降维时需要计算协方差矩阵
C)沿负梯度下降的方向一定是最优的方向
D)利用拉格朗日函数能解带约束的优化问
34.[单选题]下列模型与文本分类相关的模型是()。
A)决策树
B)神经网络
C)KNN算法
D)以上答案都正确
35.[单选题]()的主要目标是提供可扩展的机器学习算法及其实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
A)Mahout
B)Flume
C)Sqoop
D)HBase
36.[单选题]数据分析的第一步是()。
A)探索性分析
B)描述性分析
C)诊断性分析
D)规范性分
37.[单选题]探索性分析与验证性分析的不同点是()。
A)探索性分析需要事先假设
B)探索性分析比验证性分析复杂
C)探索性分析在前
D)验证性分析在前
38.[单选题]在深度学习中,下列对于sigmoid函数的说法,错误的是()。
A)存在梯度爆炸的问题
B)不是关于原点对称
C)计算exp比较耗时
D)存在梯度消失的问
39.[单选题]一幅256*256(2^16)的图像,若灰度级数为16,则该图像的大小是:( )
A)128K

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。