大数据开发基础(试卷编号1121)
1.[单选题]训练样本集S含有天气、气温、人体感受、风力4个指标,已知天气的熵为0.694,温度的熵为0.859,人体感受的熵为0.952,风力的熵为0.971,如使用ID3算法,选择( )为树模型的分界点。
A)天气
B)气温
C)人体感受
D)风力
答案:A
解析:信息熵(information entropy)是度量样本集合纯度最常用的一种指标,信息熵越大,变量的不确定性越大,反之越小。树模型的分界点应选择信息熵最小的元素,本体选天气。
2.[单选题]在支持向量机中,软间隔支持向量机的目标函数比硬间隔支持向量机多了一个()
A)偏置项 b
B)系教
C)松弛变量
D)两种情况的目标函数相同
答案:C
解析:
3.[单选题]在Hive中,如果只需要结构集的部分数据,可以通过( )子句来限定返回的行数
A)limit
B)sort
C)from
D)order
答案:A
解析:
4.[单选题]根据变量取名的规则,以下变量的命名,合乎规则的是( )
A)6S
B)S6
C)while
D)123name
答案:B
解析:
5.[单选题]为了保障流应用的快照存储的可靠性,快照主要存储在哪里?
A)jobManager 的内存中
B)可靠性高的单机数据库中
6.[单选题]创建DRDS库的时候,每个挂载的RDS实例默认创建的库的个数为:( )。
A)16
B)8
C)4
D)2
答案:B
解析:
7.[单选题]下面有关分类算法的准确率、召回率、F1值的描述,错误的是()。
A)准确率是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率
B)召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率
C)正确率、召回率和F值取值都在0和1之间,数值越接近0,查准率或查全率
就越高
D)为了解决准确率和召回率冲突问题,引入了F1分数
答案:C
解析:正确率、召回率取值都在0和1之间,数值越接近1,查准率或查全率就越高。
8.[单选题]国网数据中台,是在下面( )数据中心阶段的基础上发展过来的。
A)营销服务中心
B)全业务统一数据中心
C)海量历史/实时数据中心
D)电网GIS数据中心
答案:B
解析:
9.[单选题]下面哪一项不属于计算机集中的节点?
A)主节点(Master Node)
B)源节点(SourceNode)
C)名称结点(NameNode)
D)从节点(Slave Node)
答案:B
解析:
10.[单选题]Task 运在下来哪个选项中 Executor 上的作单元( )
A)Driver program
B)spark master
C)worker node
11.[单选题]聚类分析的常见应用场景不包括:( )
A)发现关联购买行为
B)目标用户的体分类
C)不同产品的价值组合
D)探测发现离点和异常值
答案:A
解析:
12.[单选题]机器学习研究的主要内容是在计算机上从数据中产生( )的算法,即学习算法。
A)模型
B)样本
C)规律
D)示例
答案:A
解析:
13.[单选题]通过(),持续降低自动采集成本和操作难度,不断提高公司数据的自动采集水平。
A)组织开展数据转换技术及应用研究
B)组织开展数据分类技术及应用研究
C)组织开展数据录入技术及应用研究
D)组织开展数据自动采集技术及应用研究
答案:D
解析:
14.[单选题]给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离,这说的是()算法。
A)PCA
B)SVM
C)K-means
D)LDA
答案:D
解析:
15.[单选题]存储过程的调用有几种方式(
A)3
B)1
C)4
D)2
16.[单选题]下面不属于跨平台性基础设施和跨平台分析工具的有(__)。
A)IBM
B)Microsoft
C)Amazon
D)redeo
答案:D
解析:
17.[单选题]下面关于“LIMIT 4”的描述正确的是( )。--
A)4表示可获取的最大记录数量
B)4表示从5条记录开始获取
C)查询的实际记录数不能小于4
D)以上说法都不正确
答案:A
解析:
18.[单选题]( )是从总体N个单位中随机地抽取n个单位作为样本的抽样方法。每个单位被抽中的概率是相等的,属于“等概率抽样”。
A)方便抽样
B)分层抽样
C)整抽样
D)简单随机抽样
答案:D
解析:
19.[单选题]下列哪些语句对主键的说明正确( )
A)主键可重复
B)主键不唯一
C)在数据表中的唯一索引
D)主键用foreign key修饰
答案:C
解析:
20.[单选题]下列说法错误的是( )。
A)HDFS Federation使得HDFS的命名服务能够水平扩展
B)第二名称节点是热备份,而HDFS HA不是热备份
C)HDFS HA可以解决单点故障问题
D)第二名称节点无法解决单点故障问题
答案:B
21.[单选题]matplotlib中调用折线图的函数是
A)plot()
B)scatter()
C)bar()
D)hist()
答案:A
解析:
22.[单选题]已知文件的内容如下: Hello,AB通过如下代码读取上述文件的内容,读取的结果为()。f = open('', 'r')content = f.read(7)print(content)
A)Hell
B)Hello
C)Hello,
D)Hello,A
答案:D
解析:
23.[单选题]当不知道数据所带标签时,可以使用()促使带同类标签的数据与带其他标签的数据相分离。
A)分类
B)聚类
C)关联分析
D)隐马尔可夫链
答案:B
解析:聚类是一种典型的无监督学习任务,不要求样本集数据带标签。
24.[单选题]一般地,在新样本上的误差称为(__)。
A)泛化误差
B)训练误差
C)经验误差
D)精度
答案:A
解析:
hbase官方文档25.[单选题]Numpy 中对数组进行转置的函数是( )。
A)transpose()
B)rollaxis()
C)swapaxes()
D)tan()
答案:A

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。