大数据理论考试(试卷编号152)
说明:答案和解析在试卷最后
1.[单选题]SVM在下列哪种情况下表现糟糕:()。
A)线性可分数据
B)清洗过的数据
C)含噪声数据与重叠数据
2.[单选题]表达式 int('101',2) 的值为()。
A)5
B)6
C)"10"
D)3
3.[单选题]假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是()。
A)训练样本准确率一定会降低
B)训练样本准确率一定增加或保持不变
C)测试样本准确率一定会降低
D)测试样本准确率一定增加或保持不
4.[单选题]np.exp(x).round(5)的结果是2.71828,x的值是()。
A)0
B)1
C)2
D)2.71828
5.[单选题]关于Python的全局变量和局部变量,以下选项中描述错误的是()。
A)局部变量指在函数内部使用的变量,当函数退出时,变量依然存在,下次函数调用可以继续使用
B)使用global保留字声明简单数据类型变量后,该变量作为全局变量使用
C)简单数据类型变量无论是否与全局变量重名,仅在函数内部创建和使用,函数退出后变量被释放
D)全局变量指在函数之外定义的变量,一般没有缩进,在程序执行全过程有效
6.[单选题]()是人们从(多条)信息中发现的共性规律、模式、模型、理论和方法等。
A)信息
B)知识
7.[单选题]下列哪个神经网络结构会发生权重共享(__)。
A)卷积神经网络
B)循环神经网络
C)全连接神经网络
D)选项A和
8.[单选题]下面回归模型中的哪个步骤/假设最能影响过拟合和欠拟合之间的平衡因素()。
A)多项式的阶数
B)是否通过矩阵求逆或梯度下降学习权重
C)使用常数项
D)使用正则化
9.[单选题]下列关于特征编码的叙述中,不正确的是()。
A)特征编码是将非数值型特征转换成数值型特征的方法;
B)数字编码与特征的排序无关;
C)One-Hot编码中,原始特征有n种取值,转换后就会产生n列新特征;
D)哑变量编码解决了One-Hot编码中存在线性关系的问题;
10.[单选题]若建立一个5000个特征,100万数据的机器学习模型,则应该怎么有效地应对这样的大数据训练()。
A)随机抽取一些样本,在这些少量样本之上训练
B)可以试用在线机器学习算法
C)应用P算法降维,减少特征数
D)以上答案都正
11.[单选题]结构化数组不能使用以下哪种数据类型创建()。
A)元组列表
B)字符串
C)字典
D)整数
12.[单选题]文档是待处理的数据对象,它由一组词组成,这些词在文档中不计顺序的额,例如一篇论文、一个网页都可以看做一个文档;这样的表示方式称为()。
A)语句
B)词袋
C)词海
D)词
13.[单选题]以下哪一个不是长短时记忆神经网络三个门中中的一个门()
14.[单选题]()是一种著名的密度聚类算法,它基于一组邻域参数来刻画样本的紧密程度。
A)DBSCAN
B)原型聚类
C)密度聚类
D)层次聚类
15.[单选题]利用到每个聚类中心和的远近判断离值的方法,可以基于的算法为()。
A)K-Means
B)KNN
C)SVM
D)LinearRegression
16.[单选题]以等可能性为基础的概率是()
A)古典概率
B)经验概率
C)试验概率
D)主观概率
17.[单选题]数据可视化技术可以将所有数据的特性通过()的方式展现出来
A)文字
B)图
C)表格
D)树
18.[单选题]kNN最近邻算法在什么情况下效果较好()。
A)样本较多但典型性不好
B)样本较少但典型性好
C)样本呈团状分布
D)样本呈链状分
19.[单选题]下面关于Hive SQL创建表时描述正确的是()
A)LIKE允许复制表结构和表数据
B)COMMENT可以为表与字段增加描述,必须有,不加会报错
C)ROW FORMAT 设置行数据压缩格式
D)如果相同名字的表已经存在,则建表抛出异
20.[单选题]以下( )能力不属于数据中台能力架构能力。
21.[单选题]数据科学处于哪三大领域的重叠之处()。
A)数学与统计知识、黑客精神与技能、领域实务知识
B)数据挖掘、黑客精神与技能、领域实务知识
C)数学与统计知识、数据挖掘、领域实务知识
D)数学与统计知识、黑客精神与技能、数据挖掘
22.[单选题]下面哪项不属于循环神经网络的输出模式。(__)
A)单输出
B)多输出
C)同步多输出
D)异步多输
23.[单选题]检测一元正态分布中的离点,属于异常检测中的基于()的离点检测。
A)统计方法
B)邻近度
C)密度
D)机器学习技术
24.[单选题]关于神经网络结构的权重共享现象,下面哪个选项是正确的()
A)只有全连接神经网络会出现
B)只有卷积神经网络(CNN)会出现
C)只有循环神经网络(RNN)会出现
D)卷积神经网络和循环神经网络都会出
25.[单选题]在k近邻学习算法中,随着k的增加,上界将逐渐降低,当k区域无穷大时,上界和下界碰到一起,k近邻法就达到了()。
A)贝叶斯错误率
B)渐进错误率
正则化是结构风险最小化策略的实现
C)最优值
D)上
26.[单选题]数据科学基本原则中,“基于数据的智能”的主要特点是()。
A)数据简单、但算法简单
B)数据复杂、但算法简单
C)数据简单、但算法复杂
D)数据复杂、但算法复杂
据“涌现”的()表现形式。
A)价值涌现
B)隐私涌现
C)质量涌现
D)安全涌现
28.[单选题]下列()不是神经网络的代表。
A)卷积神经网络
B)递归神经网络
C)残差网络
D)xgboost算
29.[单选题]多分类LDA将样本投影到N-1维空间,N-1通常远小于数据原有的属性数,可通过这个投影来减小样本点的维数,且投影过程中使用了类别信息,因此LDA也常被视为一种经典的()技术。
A)无监督特征选择
B)无监督降维
C)监督特征选择
D)监督降维
30.[单选题]Hive的数据最终存储在()
A)HDFS
B)Hse
C)RDBMS
D)Metastor
31.[单选题]下列关于支持向量回归说法错误的是()。
A)支持向量回归是将支持向量的方法应用到回归问题中
B)支持向量回归同样可以应用核函数求解线性不可分的问题
C)同分类算法不同的是,支持向量回归要最小化一个凹函数
D)支持向量回归的解是稀疏
32.[单选题]ZooKeeper的特点描述错误的是()。
A)复杂性
B)自我复制
C)顺序访问
D)高速读取
33.[单选题]我们建立一个5000个特征,100万数据的机器学习模型.我们怎么有效地应对这样的大数据训练()。
A)我们随机抽取一些样本, 在这些少量样本之上训练
B)我们可以试用在线机器学习算法

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。