大数据CDA考试(习题卷1)
第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]在因子分析中,为了帮助解释因子,我们可以使用( )
A)因子得分
B)因子负载
C)因子旋转
D)主成分分析
答案:C
解析:在进行因子分析时,我们可以通过因子旋转来使得最终得到的因子更具有解释性。
2.[单选题]关于Kafka 磁盘容量不足的告警,对于可能的原因以下分析不正确的是?
A)业务规划不合理导致数据分配不 均,使部分磁盘达到使用率上限
B)数据保存时间配置过长,数据累计 达到磁盘使用率上限
C)Broker节点故障导致
D)用于存储Kafka 数据的磁盘配置 (如磁盘数目磁盘大小等),无法满 足当前业务数据流量,导致磁盘使 用率达到上限答案:C
解析:
3.[单选题]基于规则的分类器有Aprior、随机森林,还有()。
A)C4.5
B)KNN
C)Naive Bayes
D)ANN
答案:A
解析:
4.[单选题]“将总体中的所有单位( )按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位”,这种抽样方法称为( )
A)多阶段抽样(systematic
B)分层随机抽样(stratified
C)集抽样(cluster
D)系统抽样(systematic
答案:D
解析:根据定义。
5.[单选题]参照以下信息选择能够正确创建orderinfo表的语句
A)create
B)create
C)create
D)create
答案:A
解析:本题考查SQL语句中建表、字段约束条件以及字段数据类型相关知识。其中建表语句结构为create table 表名(…),字段的约束条件为非空=not null、唯一=unique、主键=primary key。定长字符串类型为char,可变长字符串类型为varchar,小数类型通常使用float,但“金额”这类对数据精度要求较高的情况,应考虑使用decimal,整数类型为int。所以综合以上内容,本题的正确答案为A。
6.[单选题]使用JAVA API进行HBase整表扫描操作,以下命令输写正确的是()。
Scanner(scan);
B)table.scan(table)
(table).scan();
D)table.Scanner(get);
答案:A
解析:
7.[单选题]下列关于Java语言的特点,描述错误的是()
A)Java是跨平台的编程语言
B)Java支持分布式计算
C)Java是面向过程的编程语言
D)Java支持多线程
答案:C
解析:
8.[单选题]以下哪类数据不属于半结构化数据?
A)HTML
B)XML
C)二维表
D)JSON
答案:C
解析:
9.[单选题]设计分布式数仓库hive的数据表时,为取样更高效,一般可以对表中的连续字 段进行什么操作。
A)分桶
B)分区
C)索引
D)分表
答案:A
解析:
10.[单选题]使用“select * from 表1 inner join 表2 on 表1.员工id = 表2.员工id”语句对下边两个表进行查询,查询结果中应有几行数据
表1
A)2
B)3
C)4
D)5
答案:C
解析:本题考查对连接逻辑的正确理解能力。在连接两表的字段中有重复值且两个字段的值不是一对一匹配关系时,内连接的结果是把两表中都有的值列出来,并且有重复值的地方进行多对多匹配。所以正确答案是四个a001,选答案C。
11.[单选题]下列关于逻辑回归模型中计算得到的发生概率p,阐述错误的是( )
A)任何情况下,临界值都是0.5。当p≥0.5,其分类取1;p<0.5,其分类取0
B)p是相对概率
C)p的取值在0至1之间
D)被称为odds
答案:A
解析:p的阈值不是唯一确定的,需要根据测试集调整。
12.[单选题]关于相关性rA,B说法错误的是()。
cda数据分析师
A)rA,B>0,正相关。A随B的值得增 大而增大
B)rA,B=0,不相关。AB无关
C)rA,B<0,负相关。A随B的值得增 大而减少
D)不能单纯依据rA,B<=0确定AB的相关性
答案:D
解析:
13.[单选题]如果我们现有一个安装2.6.5版本的hadoop集,在不修改默认配置的情况下存储200个每个200M的文本文件,请问最终会在集中产生多少个数据块(包括副本)
A)200
B)40000
C)400
D)1200
答案:D
解析:
14.[单选题]回归分析首要解决的问题是(】。
A)确定解释量和被解释变量
B)确定回归模型
C)建立回归方程
D)进行检验
答案:A
解析:
15.[单选题]()图形主要用于表示一个样本中各组成部分的数据占全部数据的比例,多用于研究结构性问题。
A)饼图
B)条形图
C)折线图
D)堆积图
答案:A
解析:
16.[单选题]万维网之父是()。
A)彼得·德鲁克
B)舍恩伯格
C)蒂姆·伯纳斯-李
D)斯科特·布朗
答案:A
解析:
17.[单选题]有一组数据的偏态系数为-4、23,那么下面表述正确的是( )
A)这是一组极度左偏的数据
B)偏态系数在0附近,所以只是轻微的左偏
C)偏态系数在0附近,所以只是轻微的右偏
D)这是一组极度右偏的数据
答案:A
解析:超过正负3,就是极度偏态了。
18.[单选题]下列有关回归分析的说法,错误的是()。
A)回归分析的变量之间要有实际意 义,不能把毫无关联的两种现象随 意进行回归分析,要结合专业知 识对两事物之间是否存在因果关 系作出合理解释和结论。
B)在进行线性回归分析进行的数据 准备的时候,要求因变量y 和自 变量x都是符合总体正态的随机 变量。
C)回归直线不要随意外延
D)所有非线性回归都可以转化为线性回归
答案:D
解析:
19.[单选题]分类模型评估指标呈现中,表示用了模型跟不用模型之间的差异的曲线叫做( )。
A)ROC曲线
B)Lift曲线
C)KS曲线
D)捕获率曲线
答案:B
解析:
20.[单选题]欲构造 ArrayList类的一个实例,此类继承了List接口,下列个方法是正确 的?()
A)ArrayList myList=new Object 0;
B)List myList=new ArrayList():
C)ArrayList myList=new List():
D)List myList=new List():
答案:B
解析:
21.[单选题]下面说法错误的是()。
A)Hadoop集采用的是 Master/Slave工作模式
B)DataNode上保存着的是元数 据,真正的数据是存放在 NameNode上的
C)HDFS采用了口种对文件切割后 分别存放的存储方式。
D)HDFS是为高数据吞吐量应用优 化的。
答案:B
解析:
22.[单选题]一人中,吃东北大米的占60%,吃原阳大米的占45%, 两种均吃的30%,随 机抽一人。则至少吃一种米的概率为()。
A)0.82
B)0.85
C)0.8
D)0.75
答案:D
解析:
23.[单选题]分析师小A发现某产品销量数据有明显的长期趋势变动,则小A可以考虑采用( )
A)移动平均值法
B)向量自回归法
C)差分法
D)固定效应法
答案:A
解析:移动平均法是测定长期趋势变动的一种常用方法。
24.[单选题]什么是KDD?( )

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。