大数据理论考试(试卷编号151)
1.[单选题]SVM在下列哪种情况下表现糟糕:()。
A)线性可分数据
B)清洗过的数据
C)含噪声数据与重叠数据
答案:C
解析:SVM含噪声数据与重叠数据点下表现糟糕。
2.[单选题]表达式 int('101',2) 的值为()。
A)5
B)6
C)"10"
D)3
答案:A
解析:二进制101等于5
3.[单选题]假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是()。
A)训练样本准确率一定会降低
B)训练样本准确率一定增加或保持不变
C)测试样本准确率一定会降低
D)测试样本准确率一定增加或保持不
答案:B
解析:在模型中增加更多特征一般会增加训练样本的准确率,减小偏差。但测试样本准确率不一定增加,除非增加的特征是有效特征。
4.[单选题]np.exp(x).round(5)的结果是2.71828,x的值是()。
A)0
B)1
C)2
D)2.71828
答案:B
解析:e的1次方。
5.[单选题]关于Python的全局变量和局部变量,以下选项中描述错误的是()。
A)局部变量指在函数内部使用的变量,当函数退出时,变量依然存在,下次函数调用可以继续使用
B)使用global保留字声明简单数据类型变量后,该变量作为全局变量使用
C)简单数据类型变量无论是否与全局变量重名,仅在函数内部创建和使用,函数退出后变量被释放
D)全局变量指在函数之外定义的变量,一般没有缩进,在程序执行全过程有效
答案:A
解析:局部变量指在函数内部使用的变量,当函数退出时,变量即不存在。
6.[单选题]()是人们从(多条)信息中发现的共性规律、模式、模型、理论和方法等。
A)信息
B)知识
C)理解
D)智慧
答案:B
解析:知识上人们从数据、信息中发现的,在数据/信息中存在的共性规律、认识、经验与常识。通常根据能否清晰地表述和有效的转移,将知识分为两种:显性知识(Explicit Knowledge)和隐性知识(Tacit Knowledge)。
7.[单选题]下列哪个神经网络结构会发生权重共享(__)。
A)卷积神经网络
B)循环神经网络
C)全连接神经网络
D)选项A和
答案:D
解析:CNN与RNN网络会发生权重共享。
8.[单选题]下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。
A)多项式的阶数
B)是否通过矩阵求逆或梯度下降学习权重
C)使用常数项
D)使用正则化
答案:A
解析:选取合适的多项式阶数对于回归的拟合程度会产生重要的影响。多项式阶数越高,越容易产生过拟合现象。
9.[单选题]下列关于特征编码的叙述中,不正确的是()。
A)特征编码是将非数值型特征转换成数值型特征的方法;
B)数字编码与特征的排序无关;
C)One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征;
D)哑变量编码解决了One-Hot编码中存在线性关系的问题;
答案:B
解析:数字编码与特征的排序有关,先出现的优先排序。
10.[单选题]若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对这样的大数据训练()。
A)随机抽取一些样本,在这些少量样本之上训练
B)可以试用在线机器学习算法
C)应用P算法降维,减少特征数
D)以上答案都正
正则化是结构风险最小化策略的实现
答案:D
解析:样本数过多, 或者特征数过多, 而不能单机完成训练, 可以用小批量样本训练, 或者在线累计式训练, 或者主成分PCA降维方式减少特征数量再进行训练。
11.[单选题]结构化数组不能使用以下哪种数据类型创建()。
A)元组列表
B)字符串
C)字典
D)整数
答案:D
解析:结构化数组类型创建有四种不同的规范形式:元组列表、逗号分割的数据类型规范字符串、字段参数组字典、字段名称字典,不包含整数。
12.[单选题]文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序的额,例如一篇论文、一个网页都可以看做一个文档;这样的表示方式称为()。
A)语句
B)词袋
C)词海
D)词
答案:B
解析:词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。
13.[单选题]以下哪一个不是长短时记忆神经网络三个门中中的一个门()
A)输入门
B)输出门
C)遗忘门
D)进化门
答案:D
解析:LSTM增加了三个门用来控制信息传递和最后的结果计算,三个门分别为遗忘门、输入门、输出门。
14.[单选题]()是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。
A)DBSCAN
B)原型聚类
C)密度聚类
D)层次聚类
答案:A
解析:DBSCAN是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。
15.[单选题]利用到每个聚类中心和的远近判断离值的方法,可以基于的算法为()。
A)K-Means
B)KNN
C)SVM
D)LinearRegression
答案:A
解析:K-means算法又名k均值算法。其算法思想大致为:先从样本集中随机选取k个样本作为簇中心,并计算所有样本与这k个“簇中心”的距离,对于每一个样本,将其划分到与其距离最近的“簇中心”所在的簇中,对于新的簇计算各个簇的新的“簇中心”。
16.[单选题]以等可能性为基础的概率是()
A)古典概率
B)经验概率
C)试验概率
D)主观概率
答案:A
解析:关于古典概率是以这样的假设为基础的,即随机现象所能发生的事件是有限的、互不相容的,而且每个基本事件发生的可能性相等。根据大量的、重复的统计试验结果计算随机事件中各种可能发生结果的概率,称为试验概率或频率概率。主观概率,是指建立在过去的经验与判断的基础上,根据对未来事态发展的预测和历史统计资料的研究确定的概率。反映的只是一种主观可能性。
17.[单选题]数据可视化技术可以将所有数据的特性通过()的方式展现出来
A)文字
B)图
C)表格
D)树
答案:B
解析:数据可视化技术主要是通过图的方式将数据特性展现出来,而其他方式对于大规模数据很难适用。
18.[单选题]kNN最近邻算法在什么情况下效果较好()。
A)样本较多但典型性不好
B)样本较少但典型性好
C)样本呈团状分布
D)样本呈链状分
答案:B
解析:K 近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。
19.[单选题]下面关于Hive SQL创建表时描述正确的是()
A)LIKE允许复制表结构和表数据
B)COMMENT可以为表与字段增加描述,必须有,不加会报错
C)ROW FORMAT 设置行数据压缩格式
D)如果相同名字的表已经存在,则建表抛出异
答案:D
解析:
20.[单选题]以下( )能力不属于数据中台能力架构能力。
A)数据接入
B)存储计算
C)数据服务
D)应用研
答案:D
解析:
21.[单选题]数据科学处于哪三大领域的重叠之处()。
A)数学与统计知识、黑客精神与技能、领域实务知识
B)数据挖掘、黑客精神与技能、领域实务知识
C)数学与统计知识、数据挖掘、领域实务知识
D)数学与统计知识、黑客精神与技能、数据挖掘
答案:A
解析:根据Drew Conway 的数据科学韦恩图(Data Science Venn Diagram),数据科学处于数学与统计知识、黑客精神与技能和领域实务知识等三大领域的交叉之处。
22.[单选题]下面哪项不属于循环神经网络的输出模式。(__)
A)单输出
B)多输出
C)同步多输出
D)异步多输
答案:C
解析:深度学习基础知识。
23.[单选题]检测一元正态分布中的离点,属于异常检测中的基于()的离点检测。
A)统计方法
B)邻近度
C)密度
D)机器学习技术
答案:A
解析:检测一元正态分布中的离点,属于异常检测中的基于统计的离点检测。
24.[单选题]关于神经网络结构的权重共享现象,下面哪个选项是正确的()
A)只有全连接神经网络会出现
B)只有卷积神经网络(CNN)会出现
C)只有循环神经网络(RNN)会出现
D)卷积神经网络和循环神经网络都会出

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。