大数据开发基础(习题卷62)
第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]Combiner 不适合哪一种操作?( )
A)最大值
B)求和
C)平均值
D)计数
答案:C
解析:
2.[单选题]( )属于SVM应用
A)文本和超文本分类
B)图像分类
C)新文章聚类
D)以上均是
答案:D
解析:
3.[单选题]执行 "abcdef"[::-1] 语句时输出是( )。
A)fedcba
B)f
C)abcdef
D)abcde
答案:A
解析:
4.[单选题]请选出程序的正确结果()print ("我叫 %s 今年 %d 岁!" % ('小明', 10))
A)我叫%s小明 今年%d 10 岁!
B)我叫 小明 今年 10 岁!
C)我叫 10 今年 小明 岁
D)小明 我叫10岁 今年
答案:B
解析:
5.[单选题]UNIQUE惟一索引的作用是( )
A)保证各行在该索引上的值都不得重复
B)保证各行在该索引上的值不得为NULL
C)保证参加惟一索引的各列,不得再参加其他的索引
D)保证惟一索引不能被删除
答案:A
解析:
6.[单选题]给定词汇表如下:{"B、oB、", "ok", "like", "footB、A、ll", "C、A、r"}。则下面句子“B、ot likes footB、A、ll"
的词袋模型表示为:
A)、[1 1 1 0 0]
B)、[1 0 1 1 0]
C)、[1 0 0 1 0]
D)、[0 1 1 0 1]
答案:B
解析:
7.[单选题]HDFS每个文件被划分成()大小的多个block,属于同一个文件的blocks分散存储在不同DataNode上。
A)32MB
B)64MB
C)128MB
D)无法确定
答案:B
解析:
8.[单选题]( )是表现数据分布对称性的指标
A)斜率
B)偏斜度
C)偏度
D)偏离度
答案:B
解析:
9.[单选题]下列哪个不属于可视化工具?( )
A)Google
B)D3
C)Visual.ly
D)Spark
答案:D
解析:
10.[单选题]国网公司泛在电力物联网2019年建设方案要求,推进营配贯通优化提升,贯通率提升()。
A)5%
B)7%
C)10%
D)15%
答案:A
解析:
11.[单选题]np.swapaxes()函数的作用是(__)。
A)数组转置
B)删除数组
C)修改数组存储位置
D)对轴进行调整
答案:D
解析:
12.[单选题]关于Kafka盘容量不足的告警,对于可能的原因以下分析不正确的是?
A)用于存储Kafka数据的磁盘配置(如磁盘数目、磁盘大小等)无法满足当前业务数据流量,导致磁盘使用率达到上限
B)数据保存时间配置过长,数据累积达到磁盘使用率上限
C)业务规划不合理,导致数据分配不均,使部分磁盘达到使用率上限。
D)Broker节点故障导致
答案:D
解析:
13.[单选题]某超市研究销售记录数据后发现,买面包的人很大概率会购买啤酒,这种属于数据挖掘的哪类问题?()
A)关联规则发现
B)聚类
C)分类
D)自然语言处理
答案:A
解析:
14.[单选题]中值滤波器可以
A)消除孤立噪声
B)检测出边缘
C)进行模糊图像恢复
D)模糊图像细节
答案:A
解析:
15.[单选题]数据集成的基本类型是()。
A)内容集成、结构集成
B)内容集成、规约集成
C)规约集成、结构集成
D)模式集成、结构集成
答案:A
解析:数据集成是指通过应用间的数据交换从而达到集成,主要解决数据的分布性和异构性的问题,其前提是被集成应用必须公开数据结构,即必须公开表间结构、表间关系、编码的含义等。
16.[单选题]当( )时,可以不考虑 RDD 序列化处理。
A)完成成本比较高的操作后
B)执行容易失败的操作之前
C)RDD 被重复使用
D)实时性要求高
答案:D
解析:
17.[单选题]请阅读下面的代码:num_one = 12def sum(num_two): global num_one num_one = 90 return num_one + num_twoprint(sum(10))运行代码,输出结果为( )。
A)102
B)100
C)22
D)12
答案:B
解析:
18.[单选题]下列关于数据创新的说法正确的是( )。
A)多个数据集的总和价值等于单个数据集价值相加
B)由于数据的再利用,数据应该永久保存下去
C)相同数据多次用于相同或类似用途,其有效性会降低
D)数据只有开放价值才可以得到真正释放
答案:D
解析:略。
19.[单选题]下列新客户风险等级划分标准中,说法错的是()
A)短期内一般可疑报告次数为3以上--高风险
B)自然人客户由他人代办开户-一般风险
C)新开客户属于容易的行业-高风险
D)短期内客户单笔金额为10万以上的现金收交易累计3次以上-一般风险
答案:C
解析:
20.[单选题]信息安全事件的处理不遵循的原则是()
A)统一领导
B)综合协调
C)快速处理
D)集体责任hbase属于什么数据库
答案:D
解析:
21.[单选题]多元线性回归的训练样本由(__)个属性描述。
A)一
B)二
C)三
D)多
答案:D
解析:
22.[单选题]对Base集架构组成部分描述错误的是( )。
A)正常HBase表只有一个Region,随着数据增多Region不断分裂变成多个,Region的拆分非常慢。
B)Client包含访问HBase的接口,同时缓存维护已经访问过的Region的位置信息。
C)HMaster主要负责表和Region的管理工作,Region的负戴均衡
D)HRegionServer是Base的数据服务进程,负奏处理用户的数据读写请求。
答案:A
解析:
23.[单选题]以下关于 random 库的描述,正确的是:
A)设定相同种子,每次调用随机函数生成的随机数不相同
B)通过 from random import * 引入 random 随机库的部分函数
C)uniform(0,1) 与 uniform(0.0,1.0) 的输出结果不同,前者输出随机整数,后者输出随机小数
D)randint(a,b) 是生成一个 [a,b] 之间的整数
答案:D
解析:
24.[单选题]以下说法错误的是( )
A)当目标函数是凸函数时,梯度下降的解时全局最优解
B)进行PCA降雄时需要计算协方差矩阵
C)沿负梯度下降的方向一定是最优的方向
D)利用拉格朗日函数能解带约束的优化问题
答案:C
解析:
25.[单选题]小A汇总统计了各省收入,并设置了降序排列,如何实现top10?( )
A)筛选器-精确筛选
B)筛选器-条件筛选
C)显示条目数
D)无法实现
答案:C
解析:
26.[单选题](__)是一门以可视化交互为基础,综合运用图形学、数据挖掘和人机交互等多个领域的知识,以实现人机协同完成可视化任务为主要目的的分析推理性学科。
A)信息可视化
B)科学可视化
C)可视分析学
D)数据可视化
答案:C
解析:
27.[单选题]关于数据组织的维度描述正确的是
A)二维数据由对等关系的有序或无序数据构成
B)高维数据由关联关系数据构成
C)CSV 是一维数据
D)一维数据采用线性方式存储
答案:D
解析:
28.[单选题]以下哪项属于Flume的基本数据单位?
A)Object
B)Subject
C)Topic
D)Event
答案:D
解析:
29.[单选题]( )是指几组不同的数据中均存在一种趋势,但当这些数据组组合在一起后, 这种趋势将消失或反转。
A)辛普森悖论
B)大数据悖论
C)大数据偏见
D)幸存者偏差
答案:A
解析:
30.[单选题]在支持向量机中,“间隔”是指(__)。
A)非支持向量到划分超平面间的距离之和
B)支持向量之间的距离
C)支持向量和非支持向量之间的距离
D)支持向量到超平面的距离之和
答案:D
解析:
31.[单选题]依托( ),结合应用推进数据归集,形成统一的数据资源中心。
A)全业务数据中心和数据平台
B)营销基础数据平台和大数据平台
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论