大数据开发基础(习题卷25)第1部分:单项选择题,共57题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]如何禁用reduce阶段()
A)设置conf.setNumreduceTasks(0)
B)设置job.setNumreduceTasks(0)
C)设置job.setNumreduceTasks()=0
D)修改配置文件中NumreduceTasks=0
答案:B
解析:
2.[单选题]字符串的strip方法的作用是( )。
A)删除字符串头尾指定的字符
B)删除字符串末尾的指定字符
C)删除字符串头部的指定字符
D)通过指定分隔符对字符串切片
答案:A
解析:
3.[单选题]下列表达式的值为True的是()
A)5+4j>2-3j
B)3>2==2
C)e>5 and 4==f
D)(x-6)>5
答案:B
解析:
4.[单选题]启动hadoop所有进程的命令是( )。
A)start-dfs.sh
B)start-all.sh
C)start-hadoop.sh
D)start-hdfs.sh
答案:B
解析:
5.[单选题]HBase中的批量加载底层使用()实现。
A)MapReduce
B)Hive
C)Coprocessor
D)Bloom Filter
答案:A
解析:HBase批量导入两种方式:①利用MapReduce中封装好的方法。②利用Bulkload。
6.[单选题]在WebHCat 架构中,用户能够通过安全的 HTTPS 协议执行以下哪些操作?
A)执行 Hive DDL 操作。
D)以上全都正确
答案:D
解析:
7.[单选题](__)为数据科学和大数据产业生态系统提供数据内容的捕获和获取服务。
A)数据源和APPs
B)数据资源
C)数据端
D)基础设施
答案:A
解析:
8.[单选题]HBase架构的四大组件中,()分布式协调服务器。
A)Zookeeper
B)Master
C)Region Server
D)Client
答案:A
解析:
9.[单选题]给定词汇表如下:{"Bob", "ok", "like", "football", "car"}。则下面句子“Bot likes football"的词袋模型表示为:
A)[1 1 1 0 0]
B)[1 0 1 1 0]
C)[1 0 0 1 0]
D)[0 1 1 0 1]
答案:B
解析:
10.[单选题]关于 HIVE 的描述不正确的是?
A)Hive 最佳使用场景是大数据集的批处理作业
B)Hive 可以实现在大规模数据集上实现低延迟快速的查询、
C)ive 构建在基于静态批量处理的Hadoop 之上,Hadoop 通常有较高的延迟并且在作业提交和调度的时候需要大量的开销
D)Hive 查询操作过程严格遵循 Hadoop MapReduce 的作用执行模型,Hive 将用户的 HiveQL 语句通过解释器转换为MapReduce Hadoop 集上
答案:B
解析:
11.[单选题]Numpy 中使用不同类型的数组进行操作时,结果数组的类型会进行( )。
A)向下转换
B)向上转换
C)不进行转换
D)无法计算
答案:B
解析:在 Numpy 中,当使用不同类型的数组进行操作时,结果数组的类型对应于更一般或更精确的数组,称为向上转换的行为。
12.[单选题]以下( )选项是创建视图的默认算法。--
C)TEMPTABLE
D)以上选项都不正确
答案:A
解析:
13.[单选题]HIVE是由哪家公司发明并贡献到开源社区的
A)Google
B)Facebook
C)twitter
D)Amazon
答案:B
解析:
14.[单选题]以下机器学习中,在数据预处理时,不需要考虑归一化处理的是:
A)logistic回归
B)SVM
C)树形模型
D)神经网络
答案:C
解析:
15.[单选题]当我们构造线性模型时, 我们注意变量间的相关性. 在相关矩阵中搜索相关系数时, 如果我们发现3对变量的相关系数是(Var1 和Var2, Var2和Var3, Var3和Var1)是-0.98, 0.45, 1.23 . 我们可以得出什么结论: 1. Var1和Var2是非常相关的2. 因为Var1和Var2是非常相关的, 我们可以去除其中一个3. Var3
和Var1的1.23相关系数是不可能的
A)1 and 3
B)1 and 2
C)1,2 and 3
D)1
答案:C
解析:
16.[单选题]在有 N 个节点 FusionInsight HD 集中部署 HBase 时,推荐部署答案:个 HMaster 进程,
( )个RegionServer 进程?
A)3,N
B)N,N
C)2,N
D)2,2
答案:C
解析:
17.[单选题]泊松分布是离散型随机变量分布中相对较难的一种,泊松频率函数定义为(___)。
A)P(X=k)=(λ^k*e^λ)/k!
B)P(X=k)=e^k/k!
C)p^x(1-p)^(1-x)
D)(n!p^k*(1-p)^(n-k))/k!(n-k)!
答案:A
解析:
18.[单选题]所有预测模型在广义上都可称为一个或一组( )
解析:
19.[单选题]DELETE和TRUNCATE删除自动增长字段从1~4的所有值后,再次插入数据此字段的值分别为( )。--
A)1和1
B)5和5
C)1和5
D)5和1
答案:D
解析:
20.[单选题](__)是指能够通过数据来帮助用户实现其某一个目标的产品。
A)数据产品
B)电子产品
C)数据系统
D)电子系统
答案:A
解析:
21.[单选题]HBase 的一个典型应用是webtable,它是一个以网页()为主键的表。
A)标题
B)URL
C)内容
D)类别
答案:B
解析:webtable 中,以网页 URL为主键。
22.[单选题]下列关于数据存储系统叙述不正确的一项为()。
A)数据采集层
B)数据清洗、抽取与建模
C)数据仓库与数据服务
D)无统一数据接口
答案:D
解析:
23.[单选题]关于层次聚类算法:①不断重复直到达到预设的聚类簇数;②不断合并距离最近的聚类簇;③对初始聚类簇和相应的距离矩阵初始化;④对合并得到的聚类簇进行更新正确的执行顺序为()
A)①②③④
B)①③②④
C)③②④①
D)③④①②
答案:C
解析:
24.[单选题]某大数据业务人员对某些数据创建Hive表结构,其中某个数据为时间类型yyyyMMdd,那么可以使用以下哪一项作为字段类型?
A)varcahr
25.[单选题]执行如下代码import turtle as tfor i in range(1,5): t.fd(50) t.left(90)在Python Turtle Graphics中,绘制的是
A)三角形
B)正方形
C)五边形
D)五角星
答案:B
解析:
26.[单选题]哪个不是Flume的 channel 类型?
A)Memory Channel
B)File Channel
C)JDBC CHannel
D)HDFS Channel
答案:D
解析:
27.[单选题]为了得到和 SVD 一样的投射(projection),你需要在 PCA 中怎样做
A)将数据转换成零均值
B)将数据转换成零中位数
C)将数据转换成最大值
D)以上方法不行
答案:A
解析:
28.[单选题]就数据的量级而言,1PB数据是( )TB。
A)1000
B)1024
C)512
D)2048
答案:B
解析:
29.[单选题]在python中,变量的取名要遵循一定的规则,下列规则不正确的是( )。
A)变量名要以字母、数字、下划线命名,且不能以数字开头;
B)变量名不区分大小写
C)变量名不能有空格;
D)变量名能与python中的内置命令重复,如if、while、for等不可以作为变量名;
答案:B
解析:
30.[单选题]以下关于Hive的的描述错误的是( )
A)Hive是基于Hadoop的一个数据仓库工具
B)Hive提供了一系列的工具,可以用来进行数据提取转化加载(ETL)
大数据etl工具有哪些C)可以存储、分析存储在Hadoop中的大规模数据,但不能进行查询

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。