大数据开发基础(试卷编号1412)
说明:答案和解析在试卷最后
1.[单选题]下列选项中,哪一个可以对Hadoop集进行格式化()
A)hadoop namenode -format
B)hadoop namenode -ls
C)hdfs datanode -ls
D)hdfs datanode -format
2.[单选题]以下对信息描述不正确的是( )。
ubuntu使用入门教程A)信息与能源、材料属于同一层次的概念
B)信息是客观的存在
C)信息是人类社会赖以生存和发展的三大资源之一
D)信息是对数据进行计量形成的记录
3.[单选题]在 IBMPASS 中,聚类算法分为分层聚类、Kohonennetwork、K 均值聚类和( ) 四种。
A)系统聚类
B)两步聚类
C)模型聚类
D)其他聚类
4.[单选题]大数据的4V特性不包括
A)Volume(大量)
B)Velocity(高速)
C)Visual(可视)
D)Variety(多样)
5.[单选题]输入图片大小为100×100×3,依次经过一层卷积(kernel size 5×5,padding same,stride 2),pooling(kernel size 3×3,padding same,stride 2),又一层卷积(kernel size 3×3,padding valid,stride 1)之后,输出特征图大小为:( )
A)25×25
B)50×50
C)48×48
D)23×23
6.[单选题]IBM在3V的基础上又归纳总结了第4个V是指
A)真实和准确
C)巨量
D)极速
7.[单选题]在Zookeeper中,路径由( )字符串构成。
A)Unicode
B)UTF-8
C)GBK
D)ASCII
8.[单选题]关于 Spark 的说法中,( )是错误的。
A)采用内存计算模式
B)可利用多种语言编程
C)主要用于批处理
D)可进行map()操作
9.[单选题]Spark诞生于哪所学院
A)加州大学芝加哥分校
B)哈佛大学加州分校
C)加州大学伯克利分校
D)斯坦福大学圣地亚哥分校
10.[单选题]在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。
A)马尔可夫随机场
B)隐马尔可夫模型
C)条件随机场
D)逆误差传播
11.[单选题]某地区级网络提供商使用Maxcompute存储、分析宽带用户的流量信息,用户每登陆一次产生一条纪录,日均记录数在2000万条左右,目前最常见为基于区县(该市共有12个区县)、日期(天)的各种查询,其中部分查询只带有区县信息。架构师在设计用户登陆信息表时,决定建成分区表,对于分区列的选取,以下性能最好的是:( )。
A)以字符串型日期信息(天)为分区别
B)以字段组合(字符串型区县信息,字符串型日期信息(天))为分区列
C)以字符串型区县信息为分区列
D)以字符串型日期信息(天)为第一级分区列,以字符串型区县为第二级分区列
12.[单选题]引用集合数据类型中的元素选择sub数组中第一个元素进行查询,正确的是( )
A)select name,subordinates[0] from emplyees;
B)select name,subordinates[1] from emplyees;
C)select name,subordinates from emplyees;
D)以上都不正确
13.[单选题]本行()负责牵头开展数据治理风险管理工作,规范数据风险管理
A)风险管理部
B)内审监督部
C)科技部
D)数据运管部
14.[单选题]对于随机森林和 GBDT,下面说法正确的是()。
A)在随机森林的单个树中,树和树之间是有依赖的,而 GBDT中的单个树之间是没有依赖的
B)这两个模型都使用随机特征子集,来生成许多单个的树
C)我们可以并行地生成 GBDT单个树,因为它们之间是没有依赖的
D)GBDT训练模型的表现总是比随机森林好
15.[单选题]一个关系只有一个( )
A)外码
B)候选码
C)超码
D)主码
16.[单选题]根据《泛在电力物联网2019年建设方案》,多维精益管理体系变革工作不包含以下哪一项( )
A)重点推进业务流程在线贯通、企业级数据标准建设和信息频道化输出,实现电网运营数据全面连接、经营状态多维展示
B)按人资、设备、营销、物资等业务条线细化管理颗粒度,实现投入产出精准分析评价
C)搭建市场化业务精益管理体系,支撑新兴业务开拓
D)提高业务数字化和线上化水平,增强精益化管理能力,支撑市场开拓和价值创造,提升企业经营绩效
17.[单选题]随机森林是在(__)上的一个扩展变体。
A)Boosting
B)AdaBoost
C)RF
D)Bagging
18.[单选题]把图像分割问题与图的最小割(mincut)问题相关联的方法是( )。
A)基于图论的分割方法
B)分水岭算法
C)SLIC 算法
D)基于阈值的方法
19.[单选题]Maxcompute 的屏显行数可以通过管理控制台实现,最大的显示条数是:( )。
A)100条
C)1000条
D)5000条
20.[单选题]下列关于对Zookeeper的ruok命令描述正确的是( )。
A)输出服务器的配置信息
B)输出服务器的统计信息
C)如果服务器正在运行并且未处于出错状态,则输出imok
D)输出服务器的环境信息
21.[单选题]以下哪项不属于图像分割的目的。()
A)把不同类标分开。
B)提取不同区域的特征。
C)识别图像内容,或对图像进行分类。
D)对未处理噪声的图像进行平滑。
22.[单选题]考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是
A)2
B)3
C)3.5
D)5
23.[单选题]以()为指导,结合业务数据资产需求和数据资产管理现状,编制专业数据资产发展规划,统筹编制公司数据资产发展规划。
A)公司战略
B)公司数据安全战略
C)公司管理制度
D)公司数据资产发展战略
24.[单选题]关联规则的评价指标是( )
A)均方误差、均方根误差
B)kappa 统计、显著性检验
C)支持皮、置信度
D)平均绝对误差、相对误差
25.[单选题]下列关于计算机存储容量单位的说法中,错误的是( )。
A)1KB<1MB<1GB
B)基本单位是字节(Byte)
C)一个汉字需要一个字节的存储空间
D)一个字节能够容纳一个英文字符
26.[单选题]在支持向量机中,“间隔”是指(__)。
B)支持向量之间的距离
C)支持向量和非支持向量之间的距离
D)支持向量到超平面的距离之和
27.[单选题]“for”是一种常用的循环语句。下列语句运行后,变量sum的值为( )sum=0for i in range(10): sum=sum+i
A)55
B)10
C)11
D)45
28.[单选题]Apache Hadoop可以在(___)平台上运行。
A)Ubuntu
B)Debian
C)Windows
D)跨平台
29.[单选题]如果只写 open(lename),那就是用( )模式打开。
A)r
B)w
C)a
D)b
30.[单选题]就数据的量级而言,1PB数据是( )TB。
A)1000
B)1024
C)512
D)2048
31.[单选题]在Spark中( )是弹性分布式数据集,是最重要的一类数据抽象。
A)RDD
B)Driver进程
C)SparkContext
D)ClusterManager
32.[单选题]( )不是长短时记忆神经网络兰个门中的一个门
A)输入门
B)输出门
C)遗忘门
D)进化门

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。