大数据理论考试(试卷编号152)--688IT编程网

大数据理论考试(试卷编号152)

说明：答案和解析在试卷最后

1.[单选题]SVM在下列哪种情况下表现糟糕：（）。

A)线性可分数据

B)清洗过的数据

C)含噪声数据与重叠数据

2.[单选题]表达式 int('101',2) 的值为（）。

A)5

B)6

C)"10"

D)3

3.[单选题]假如使用逻辑回归对样本进行分类，得到训练样本的准确率和测试样本的准确率。现在，在数据中增加一个新的特征，其它特征保持不变。然后重新训练测试。则下列说法正确的是（）。

A)训练样本准确率一定会降低

B)训练样本准确率一定增加或保持不变

C)测试样本准确率一定会降低

D)测试样本准确率一定增加或保持不

4.[单选题]np.exp(x).round(5)的结果是2.71828，x的值是（）。

A)0

B)1

C)2

D)2.71828

5.[单选题]关于Python的全局变量和局部变量，以下选项中描述错误的是（）。

A)局部变量指在函数内部使用的变量，当函数退出时，变量依然存在，下次函数调用可以继续使用

B)使用global保留字声明简单数据类型变量后，该变量作为全局变量使用

C)简单数据类型变量无论是否与全局变量重名，仅在函数内部创建和使用，函数退出后变量被释放

D)全局变量指在函数之外定义的变量，一般没有缩进，在程序执行全过程有效

6.[单选题]（）是人们从（多条）信息中发现的共性规律、模式、模型、理论和方法等。

A)信息

B)知识

7.[单选题]下列哪个神经网络结构会发生权重共享(__)。

A)卷积神经网络

B)循环神经网络

C)全连接神经网络

D)选项A和

8.[单选题]下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素（）。

A)多项式的阶数

B)是否通过矩阵求逆或梯度下降学习权重

C)使用常数项

D)使用正则化

9.[单选题]下列关于特征编码的叙述中，不正确的是（）。

A)特征编码是将非数值型特征转换成数值型特征的方法；

B)数字编码与特征的排序无关；

C)One-Hot编码中，原始特征有n种取值，转换后就会产生n列新特征；

D)哑变量编码解决了One-Hot编码中存在线性关系的问题；

10.[单选题]若建立一个5000个特征,100万数据的机器学习模型，则应该怎么有效地应对这样的大数据训练（）。

A)随机抽取一些样本，在这些少量样本之上训练

B)可以试用在线机器学习算法

C)应用P算法降维，减少特征数

D)以上答案都正

11.[单选题]结构化数组不能使用以下哪种数据类型创建（）。

A)元组列表

B)字符串

C)字典

D)整数

12.[单选题]文档是待处理的数据对象，它由一组词组成，这些词在文档中不计顺序的额，例如一篇论文、一个网页都可以看做一个文档；这样的表示方式称为（）。

A)语句

B)词袋

C)词海

D)词

13.[单选题]以下哪一个不是长短时记忆神经网络三个门中中的一个门（）

14.[单选题]（）是一种著名的密度聚类算法，它基于一组邻域参数来刻画样本的紧密程度。

A)DBSCAN

B)原型聚类

C)密度聚类

D)层次聚类

15.[单选题]利用到每个聚类中心和的远近判断离值的方法，可以基于的算法为（）。

A)K-Means

B)KNN

C)SVM

D)LinearRegression

16.[单选题]以等可能性为基础的概率是（）

A)古典概率

B)经验概率

C)试验概率

D)主观概率

17.[单选题]数据可视化技术可以将所有数据的特性通过（）的方式展现出来

A)文字

B)图

C)表格

D)树

18.[单选题]kNN最近邻算法在什么情况下效果较好（）。

A)样本较多但典型性不好

B)样本较少但典型性好

C)样本呈团状分布

D)样本呈链状分

19.[单选题]下面关于Hive SQL创建表时描述正确的是（）

A)LIKE允许复制表结构和表数据

B)COMMENT可以为表与字段增加描述，必须有，不加会报错

C)ROW FORMAT 设置行数据压缩格式

D)如果相同名字的表已经存在，则建表抛出异

20.[单选题]以下（）能力不属于数据中台能力架构能力。

21.[单选题]数据科学处于哪三大领域的重叠之处（）。

A)数学与统计知识、黑客精神与技能、领域实务知识

B)数据挖掘、黑客精神与技能、领域实务知识

C)数学与统计知识、数据挖掘、领域实务知识

D)数学与统计知识、黑客精神与技能、数据挖掘

22.[单选题]下面哪项不属于循环神经网络的输出模式。(__)

A)单输出

B)多输出

C)同步多输出

D)异步多输

23.[单选题]检测一元正态分布中的离点，属于异常检测中的基于（）的离点检测。

A)统计方法

B)邻近度

C)密度

D)机器学习技术

24.[单选题]关于神经网络结构的权重共享现象，下面哪个选项是正确的（）

A)只有全连接神经网络会出现

B)只有卷积神经网络(CNN)会出现

C)只有循环神经网络(RNN)会出现

D)卷积神经网络和循环神经网络都会出

25.[单选题]在k近邻学习算法中，随着k的增加，上界将逐渐降低，当k区域无穷大时，上界和下界碰到一起，k近邻法就达到了（）。

A)贝叶斯错误率

B)渐进错误率

正则化是结构风险最小化策略的实现

C)最优值

D)上

26.[单选题]数据科学基本原则中，“基于数据的智能”的主要特点是（）。

A)数据简单、但算法简单

B)数据复杂、但算法简单

C)数据简单、但算法复杂

D)数据复杂、但算法复杂

据“涌现”的（）表现形式。

A)价值涌现

B)隐私涌现

C)质量涌现

D)安全涌现

28.[单选题]下列（）不是神经网络的代表。

A)卷积神经网络

B)递归神经网络

C)残差网络

D)xgboost算

29.[单选题]多分类LDA将样本投影到N-1维空间，N-1通常远小于数据原有的属性数，可通过这个投影来减小样本点的维数，且投影过程中使用了类别信息，因此LDA也常被视为一种经典的（）技术。

A)无监督特征选择

B)无监督降维

C)监督特征选择

D)监督降维

30.[单选题]Hive的数据最终存储在（）

A)HDFS

B)Hse

C)RDBMS

D)Metastor

31.[单选题]下列关于支持向量回归说法错误的是（）。

A)支持向量回归是将支持向量的方法应用到回归问题中

B)支持向量回归同样可以应用核函数求解线性不可分的问题

C)同分类算法不同的是，支持向量回归要最小化一个凹函数

D)支持向量回归的解是稀疏

32.[单选题]ZooKeeper的特点描述错误的是（）。

A)复杂性

B)自我复制

C)顺序访问

D)高速读取

33.[单选题]我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练（）。

A)我们随机抽取一些样本, 在这些少量样本之上训练

B)我们可以试用在线机器学习算法

688IT编程网

大数据理论考试(试卷编号152)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

688IT编程网

大数据理论考试(试卷编号152)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林算法的改进方法

基于随机森林算法的风险预警模型研究

Python中的随机森林算法详解

随机森林发展历史

如何使用随机森林进行时间序列数据模式识别(八)

随机森林回归模型原理

如何使用随机森林进行时间序列数据模式识别(六)

如何使用随机森林进行时间序列数据预测(四)

如何使用随机森林进行异常检测(六)

随机森林算法和grandientboosting算法 -回复

随机森林方法总结全面

随机森林算法原理和步骤

随机森林的原理

随机森林 重要性

随机森林算法

机器学习中随机森林的原理

随机森林算法原理

使用计算机视觉技术进行动物识别的技巧

基于crf命名实体识别实验总结

transformer预测模型训练方法

最新文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

随机森林结合直接正交信号校正的模型传递方法

标签列表

随机森林重要性