大数据开发基础(试卷编号1382)
说明:答案和解析在试卷最后
1.[单选题]一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的( )。
A)定量思维
B)相关思维
C)因果思维
D)检验思维
2.[单选题]在Hive的配置文件中( )表示Hive的DDL语句的输出格式。
A)hive.ddl.output.format
plan
press.output
D)hive.map.aggr
3.[单选题]np.sqrt(10)的结果是?
A)3.1622776601684
B)3
C)10
D)1
4.[单选题]运行下面代码,输出结果是( )。
D={-2,-1,0,1,2,3} n=d.pop()
Print(n)
A)-2
B)2
C)不确定
D)3
5.[单选题]调用Zookeeper对象创建的节点,不包括( )。
A)持久节点
B)临时节点
C)持久顺序节点
D)DataNode节点
6.[单选题]执行以下代码段import randomprint(random.choice('sun'))时,输出为( )。
A)sun
B)s或u或n
C)除了s、u、n的任一字符
D)s
7.[单选题]图像识别常用 softmA、x 函数接在模型的输出上,其作用为:()。
A)、增加不同类别之间的区分度
B)、突出输出向量中类标的对应的维度
C)、对输出归一化,同时以概率的更好解释输出向量
D)、过滤无用的环境信息
8.[单选题]( )算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。
A)Apriori
B)EM
C)PCA
D)PAC
9.[单选题]以下哪一项不是Spark框架可以满足的大数据分析场景?
A)批处理
B)即席查询
C)流处理
D)大批量shuffle的实时需求
10.[单选题]3 ** 3的结果为( )。
A)1
B)3
C)9
D)27
11.[单选题]安装第三方模块使用的指令是( )。
A)pip install SomePackage
B)pip uninstall SomePackage
C)pip search SomePackage
D)pip show SomePackage
12.[单选题]RDD 的特点不包括( )。
A)RDD 之间有依赖关系,可溯源
B)RDD 由很多 partition 构成
C)对 RDD 的每个 split 或 partition 做计算
D)RDD 可以增量更新
13.[单选题]程序代码片段:a=int(input( "请输入数值") )b=int(input( "请输入数值")
)c=int(input( "请输入数值") )If (a>b): a=belse (a>c): a=cprint( a )在这个程序运行过程中,若从键盘上输入a、b、c的值分别是4、5、6,则最后一个语句在文本窗口中输出显示的是( )
A)4
B)5
C)6
D)7
14.[单选题]典型的 NoSQL 数据库是( )
A)Hive
B)MySQL
C)Hbase
D)Oracle
15.[单选题]分布式应用程序可以基于分布式应用程序协调服务实现同步服务,配置维护和命名服务等的工具是( )。
A)Flume
B)Zookeeper
C)Storm
D)Spark Streaming
16.[单选题]某电商使用ADS进行数据分析,其中商品信息表记录了商品的型号、价格、厂家等等信息,从数据分析角度来讲,它是一张维表,该表包含了超过2000万条的纪录,大小在5G左右,在ADS中该( )。
A)建表时指定为ADS的维表,将分区数设置为1
B)建表时指定为ADS的维表,即不进行拆分,可以和任意表关联
C)必须建成ADS分区表,将会有一些限制,比如不能和不同普通表组上的表进行关联等
D)可将该表直接打开到和该表关联的事实表中,做成一张宽表,减少join,提升性能
17.[单选题]以下描述中不正确的是(___)。
A)整个数据集可以称作一个样本
B)样本不可以是单个示例
C)一个样本可以称为一个“特征向量”
D)样本中反映事件或对象在某方面的表现或性质的事项,可以称为“特征”
18.[单选题]HBase为什么适用于海量数据存储?
A)集规模小
B)支持列存表
C)多列簇特性
D)HDFS做底层存储
19.[单选题]关于SVM泛化误差描述正确的是()
A)超平面与支持向量之间距离
B)SVM对未知数据的预测能力
C)SVM的误差阈值
D)SVM波动范围
20.[单选题]下列去噪方法中能较好地保持图像边缘的是( )。
A)中值滤波
B)双边滤波
C)均值滤波
D)高斯滤波
21.[单选题]以下( )对公司互联网部加强数据管理工作的描述是不正确的。
A)开展公司数据盘点,夯实数据管理基础。
B)加强数据标准规范建设,推动数据贯通融合。
C)推进数据质量治理,提升数据数量规模。
D)推进数据共享应用,充分发挥数据价值。
22.[单选题]一幅灰度级均匀分布的图像,其灰度范围在[0-255],则该图像的信息量为
A)0
B)255
C)6
D)8
23.[单选题]下面哪个属于映射数据到新的空间的方法?
A)傅立叶变换
B)特征加权
C)渐进抽样
D)维归约
24.[单选题]下列关于数据创新的说法正确的是( )。
A)多个数据集的总和价值等于单个数据集价值相加
B)由于数据的再利用,数据应该永久保存下去
C)相同数据多次用于相同或类似用途,其有效性会降低
D)数据只有开放价值才可以得到真正释放
25.[单选题]关于EDA与统计学中验证性分析的相关描述不正确的有(__)。
A)EDA无需事先假设,验证性分析需要事先假设
B)探索分析在后,验证性分析在前
C)EDA中采取的方法往往比验证分析简单
D)基于EDA是数据计算工作可以分为2个部分:探索性分析和验证性分析
26.[单选题]从Anscombe的四组数据(Anscombe’s Quartet) 可以看到() .
A)数据可视化中的数据可以分为四组
B)数据可视化在数据科学中的重要地位
C)数据可视化与机器学习具有同等作用
D)数据可视化与机器学习具有同等作用
27.[单选题]大数据的分布式计算使用下面哪项技术?( )
A)HDFS
B)MapReduce
C)Nutch
D)Hive
28.[单选题]以下哪个操作不会导致 Spark Shuffle 的发生?
A)reduceByKey()
B)filter()
C)distinct()
D)intersection()
hbase属于什么数据库29.[单选题]关于Python中的复数,下列说法错误的是
A)表示复数的语法是real + image j
B)实部和虚部都是浮点数
C)虚部必须后缀j,且必须是小写
D)方法conjugate返回复数的共轭复数
30.[单选题]以下哪些算法, 可以用神经网络去构造: 1. KNN2. 线性回归3. 对数几率回归
A)1和 2
B)2 和 3
C)1, 2 和 3
D)以上都不是
31.[单选题]Kafka Cluster Mirroring 工具可以实现以下哪项功能?
A)Kafka 跨集数据同步方式
B)Kafka 单集内数据备份
C)Kafka 单集内数据恢复
D)以上全不正确
32.[单选题]运行下面代码的输出结果是( )。import numpy as np
nm=('raju','anil','ravi','amar') dv=('f.y.','s.y.','s.y.','f.y.')
Ind = np.lexsort(nm,dv) print(ind)
A)[3 0 1 2]
B)[1 3 5 9]
C)[3 1 9 8]
D)['amar,f.y.' 'anil,s.y.' 'raju,f.y.' 'ravi,s.y.']

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。