大数据CDA考试(习题卷3)
说明:答案和解析在试卷最后
第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]QQ图可以用来检验( )
A)正态性
B)共线性
C)同方差
D)过拟合
2.[单选题]Flink 的数据转换操作在以下哪些环节中完成()?
A)channel
B)Transformation
C)sink
D)source
3.[单选题]以下命令组成错误的是()
A)vim /etc/profile
B)source/etc/profile
C)hadoop namenode-format
D)bin/hadoop fs- cat/hadoopdata/y/txt
4.[单选题]在MapReduce中,()组件是用户不指定也不会有默认的。
A)Combiner
B)OutputFormat
C)Partitioner
D)InputFormat
5.[单选题]以下关于Zookeeper 关键特性中的原子说法正确的是?
A)客户端发送的更新会按照他们被 发送的顺序进行应用
B)更新只能全部完成或失败,不会部 分完成
C)一条消息被一个server 接收,将 被所有server 接收
D)集中无论哪台服务器,对外示均 是同
6.[单选题]Spark是用以下哪种编程语言实现的()?
A)C
B)C++
C)JAVA
D)Scala
7.[单选题]某专业毕业的研究生年薪的标准差大约为2000美元,现在想要估计这个专业毕业研究生年薪95%的置信区间,并要求误差为100美元,应抽取多大的样本量?( ) z/2=1.96
A)182
B)98
C)1537
D)634
8.[单选题]使用Hbase 客户端批量写入10条数据,某个Hregionserver 节点上包含该表的 2 个Region,分别为A 和B,10条数据中有6条属于A,4条属于B,请问写入这10条 数据需要向该Hregion Server 发送几次RPC 请求?
A)10
B)6
C)2
D)1
9.[单选题]以下哪个关键字可以用来为对象加互斥锁?
A)transient
B)static
C)serialize
D)synchronized
10.[单选题]以下关于Hive操作描述不正确的是()。
A)Hive是一个建立在hadoop文件 系统上的数据仓库架构,可以用 其对HDFS上
B)Hive依赖于MapReduce 处理数 据
C)Hive的加载数据时候,可以用 local进行修饰,表示从某个本地 目录下加载数据
D)Hive一般可以用于实时的查询分 析
11.[单选题]以下不属于对应分析的优点的选项有( )
A)结果直观
B)图形化
C)没有复杂的中间过程
D)信息保留完整
12.[单选题]在Webhcat架构中,用户能够通过安全的HTTPS 协议执行以下哪些操作?
A)执行Hive DDL 操作
B)运行Mapreduce 任务
C)运行Hive HOL 任务
D)以上全都正确
13.[单选题]Hbase 中数据存储的文件格式是什么?
A)Hlog
B)Textfile
C)HFlle
D)sequencerlle
14.[单选题]关于MapReduce框架中一个作业的reduce任务数,下列说法正确的是()。
A)由自定义的Partitioner来确定
B)是分块总数目的一半
C)可以由用户来自定义,通过 JobConf.setNumReducetTask (int)来设定一个作业中reduce的 任务数目
D)由MapReduce随机确定其数目
15.[单选题]Hbase 的Region是由个服务进程来管理的?()
A)HRegionserver
B)Zookeeper
C)HMaster
D)DataNode
hbase的特性有哪些
16.[单选题]整型数据类型中,需要内存空间最少的是
A)short
B)long
C)int
D)byte
17.[单选题]HFile数据格式中的Data字段用于()。
A)存储实际的KeyValue数据
B)存储数据的起点
C)指定字段的长度
D)存储数据块的起点
18.[单选题]针对聚类分析,下面说法错误的是()。
A)一定存在一个最优的分类
B)聚类分析是无监督学习
C)聚类分析可以用于判断异常值
D)聚类分析即:物以类聚,人以 分
19.[单选题]关于Dataset,下列说法不正确的是?
A)Dataset 不需要反序列化就可执 行大部分操作
B)Dataset 是一个由特定域的对象 组成的强类型集合
C)Dataset 与RDD 高度类似性能 比RDD 好
D)Dataset 执行sort,filter, shuffle登操作需要进行反序列 化
20.[单选题]以下哪种不是Hive支持的数据类型?
A)Struct
B)Int
C)Map
D)Long
21.[单选题]在使用 SQLAIchemy 模型从数据库中查询数据时,可以使用模型提供的()属性 调用各种过滤方法和查询 方法。
A)query
B)order
C)filter
D)select
22.[单选题]在对某个多元线性回归模型的分析中,如果某自变量的VIF=1,这说明( )
A)此自变量与因变量不存在线性相关性
B)此自变量与其他自变量不存在线性相关性
C)此模型存在非常严重的共线性
D)此多元回归模型的R2=0
23.[单选题]声明成员变量时,如果不使用任何访问控制符(public,protected,private),则以 下哪种类型的类不能对该成员进行直接访问()
A)同一类
B)同一包中的子类
C)同一包中的非子类
D)不同包中的子类
24.[单选题]如果希望某个变量只可以被类本身访问和调用, 则应该使用下列那一种访问控制 修饰符
A)private
B)protected
C)private protected
D)public
25.[单选题]以下哪项不是描述数据离散趋势的常见指标。 )
A)极差
B)都是
C)四分位数间距
D)变异系数
26.[单选题]定义问题时通常使用以下哪种方法。()
A)波特五力竞争分析
B)5W2H分析法
C)描述性统计分析
D)决策树
27.[单选题]以下一项不属手创建Loader 作业时必选项?
A)优先级
B)名称
C)连接
D)类型
28.[单选题]在Flask 框架中设置路由的请求方法,可以使用参数()。
A)request
B)requests
C)method
D)methods
29.[单选题]查看kafka 某Topic 的partition详细信息时,使用如下那个命令?
A)bin/kakfa-topics sh--create
B)bin/kakfa-topics sh --delete
C)bin/kakfa-topics.sh-list
D)bin/kakfa-topics sh-- describe
30.[单选题]下面声明数组的写法错误()。
A)int a[];
B)int[]a;
C)int[3][]a;
D)int[][3]a;
31.[单选题]在Hadoop生态组件中,个产品可用于复杂的批量数据处理。()
A)MapReduce、Hive
B)Impala
C)Storm
D)Mahout
32.[单选题]Spark组件中哪个选项不属于 transformation 操作?
A)Join
B)distinct
C)reduceByKey
D)reduce
33.[单选题]以下关于DBSCAN算法说法错误的是()。
A)如果样本集的密度不均匀、聚类 间距差相差很大时,聚类质量较 差;
B)如果样本集较大时, 聚类收敛时 间较长;
C)调参相对复杂,不同的参数组合 对最后的聚类效果有较大影响。
D)聚类结果可能有偏倚。
34.[单选题]HFile数据格式中的Metalndex字段用于()。
A)Meta块的长度
B)Meta块的结束点
C)Meta块数据内容
D)Meta块的起始点
35.[单选题]已知表student,字段如下:
取出course1,course2,course3三门成绩均超过60分的记录,可以使用如下查询语句( )
A)select
B)select
C)select
D)select
36.[单选题]以下哪种说法不是K-Means算法的优点。()
A)收敛较快
B)选代次数一般为几次,较神经网 络简单
C)中心点的个数,通常值是在3-5 个之间
D)算法可能收敛到局部最优点

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。