大数据CDA考试(习题卷4)
说明:答案和解析在试卷最后
第1部分:单项选择题,共47题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]某公司的总会计师决定用决策模型应对不确定性问题。目前,公司有两种方案可 供选择,与另一跨国公司联合投资或不联合投资。总会计师提供了以下信息:方 案1:联合投资的结果和概率:成功概率为 60%,投资成本为1200万元,投资成 功的现金流为 2000万元,投资不成功的现金流为200万元,其他成本为0元, 至此时已发生的成本为120万元。方案2:不联合投资的结果和概率;至此时已发生 的成本为120万元,其他成本为500000元。下列哪项分别正确地反映了联合投 资与不联合投资的期望值?0
A)800000元和-1700000元
B)-700000元和-500000元
C)800000元和-500000元
D)-700000元和-1700000元
2.[单选题]下列选项中适合Mapreduce的场景()
A)实时交互计算
B)迭代计算
C)流式计算
D)离线计算
3.[单选题]下列关于计算机存储容量单位的说法中,错误的是()。
A)1KB<1MB<1GB
B)基本单位是字节(Byte)
C)一个汉字需要一个字节的存储空 间
D)一个字节能够容纳一个英文字符
4.[单选题]部署Fusioninsight HD 时,同一集内的Flume Server 节点建议至少部署几个?
A)7
B)3
C)4
D)2
5.[单选题]为什么要在类神经网络中计算误差值?()
A)调整输入值
B)调整隐藏层个数
C)调整权重(Weight)
D)调整真实值
6.[单选题]为了保证流应用的快照存储的可靠性,快照主要存储在()?
A)本地文件系统中
B)Jobmanager 的内存中
C)HDFS中
D)可靠性高的单机数据库中
7.[单选题]以下四项指标中,不能用于线性回归中的模型比较的是( )。
A)R方
B)调整R方
C)AIC
D)BIC
8.[单选题]关于数据挖掘的方法论 CRISP-DM 说法正确的是( )。
A)这是SPSS 公司,Daimler Chrysler 提出的数据挖掘流程
B)主要分为六步,业务理解,数据理 解数据准备,模型搭建,模型评估 与模型发布
C)该方法论已经成功的在SAS EM 中进行了实施
数据库认证考试
D)这六个过程有严格的前后顺序, 析过程中不能逆转或者跳转
9.[单选题]用定期数据分析报表作为依据的反映计划执行情况的数据分析报告是( )。
A)专题分析报告
B)综合分析报告
C)日常数据通报
D)实时运营报告
10.[单选题]下列属于推断性统计分析的方法是()。
A)大数定律
B)中心极限定理
C)相关分析
D)回归分析
11.[单选题]对下列情况的总体、总体参数描述正确的是( )?①你在A保险公司工作,公司要求你确定在追尾车祸事故中,对受害者赔付的平均金额。这时候的总体包含所有追尾事故的已经拿到保险金的受害者。相关的总体参数是对受害者赔付的平均金额。②当你被B快餐厅录用,确定每月用于炸薯条的土豆的用量。这时候的总体包括每月送来的用于炸薯条的土豆重量。相关的总体参数是每月送来的土豆的平均重量,以及其重量的差异。③你是C公司下属的商业记者
,正在调查一种抗癌新药对儿童骨癌是否有效。这时候的总体包含所有儿童骨癌病人。其中重要的总体参数是没有用新药就痊愈的儿童百分比及用新药后痊愈的儿童百分比。
A)①②③
B)①②
C)①③
D)②③
12.[单选题]Hive是以( )技术为基础的数据仓库。
A)HDFS
B)MAPREDUCE
C)HADOOP
D)HBASE
13.[单选题]SOL 语言中,删除一个表中所有数据,但保留表结构的命令是()。
A)DELETE
B)DROP
C)CLEAR
D)REMORE
14.[单选题]Hive中以下操作不正确的是()。
A)load data inpath into table name
B)insert into table name
C)insert overwrite table name
D)insert overwrite into table name
15.[单选题]以下选项中,哪个有可能是Apriori算法所挖出来的结果?()
A)买计算机同会购买相关软件
B)买打印机后过三个月会买墨水
C)卖便携计算机较台式机所获得额 外利益
D)以上皆均不是
16.[单选题]YARN 的基于标准调度,是对下列选项中的哪个进行标签化?
A)Appmaster
B)Resourcemanager
C)Nodemanager
D)Container
17.[单选题]字段“贷款人姓名”,下列方法最适宜的是( )
A)需要编码为数值变量
B)需要编码为字符变量
C)需要编码为二分变量
D)需要编码为分类变量
18.[单选题]在查看中国电商市场的交易数据时,会发现由于双11的存在,中国电商市场的交易额会在每年第四季度有很大的增幅。这一特征体现了电商市场成交数据的( )
A)长期趋势变动
B)季节变动
C)周期变动
D)以上都是
19.[单选题]下列关于HDFS的描述正确的是?
A)NameNode磁盘元数据不保存 Block的位置信息
B)DataNode通过长连接与 NameNode保持通信
C)HDFS集支持数据的随机读写
D)如果NameNode宕 机,SecondaryNameNode会接 替它使集继续工作
20.[单选题]以下选项中,不属于信息时代的定律的是()
A)吉尔德定律
B)摩尔定律
C)麦特卡尔夫定律
D)达律多定律
21.[单选题]在做前期样本规划时,训练集(Train)、验证集(Validation)和检验集(Test)样 本量分配方案哪个比较适合()
A)训练50%,验证0%,检验50%
B)训练100%,验证0%,检验0%
C)训练0%,验证100%,检验0%
D)训练60%,验证 30%,检验10%
22.[单选题]关于MapReduce的说法正确的是()。
A)MapReduce1.0用YARN框架来 进行资源调度的
B)MapReduce是基于内存计算的 框架
C)MapReduce是分布式文件存储 系统
D)MapReduce1.0既是一个计算框 架又是一个资源调度框架
23.[单选题]关系型数据库的完整性约束条件有( )。
A)主键约束
B)非空约束
C)唯一约束
D)以上都是
24.[单选题]小王为了运用逻辑回归进行反欺诈识别,直接从数据库中运用简单随机抽样的方法进行抽样,并得到了10000条样本,其中7000作为训练,3000作为测试,在测试集中小王的正负样本整体预测准确率为99.7%,下面表述错误的是( )
A)模型的整体预测准确率很高,因此可以认为模型结果是可靠的
B)有必要进一步查看混淆矩阵
C)有必要查看正负样本比例
D)反欺诈问题中,运用简单随机抽样是欠妥的
25.[单选题]在处理后台数据时,有一列客户输入变量名为“您的爱好”,共有5个不同的选项,但是有70%左右的客户这一项的数据没有填写,那么那一项的处理方式更合理( )?
A)建模前先将这个变量删除
B)将这一项没有填写的客户归为第6类
C)用前5项的众数替换缺失值
D)提出这部分未填写爱好的客户信息
26.[单选题]一个电瓶车制造商声称,其生产的电瓶车正常行驶条件下大于40公里,对一个由20辆电瓶车组成的随机样本作了试验,测得平均值为50公里,标准差为10公里。已知电瓶车的行驶距离服从正态分布,我们希望检验该制造商的产品同他所说的标准相符?我们应该选择( )
A)单侧t检验
B)双侧t检验
C)单侧F检验
D)双侧F检验
27.[单选题]使用余弦相似度时,结果等于1表示两个向量( )
A)完全相同
B)完全相反
C)完全相关
D)不确定
28.[单选题]某个保险公司发现,其投保人年龄分布的偏态系数为5.83,那么下面表述正确的是( )
A)这是一组极度左偏的数据
B)偏态系数在0附近,所以只是轻微的左偏
C)偏态系数在0附近,所以只是轻微的右偏
D)这是一组极度右偏的数据
29.[单选题]对于一个列联表来说,多维尺度分析关注的是( )
A)行变量和列变量两者的相关性
B)变量之间的相关关系
C)行变量之间的相似性
D)维度的含义
30.[单选题]以下选项哪个不属于分类算法?( )
A)KNN算法
B)逻辑回归
C)C4.5算法
D)TF-TDF 算法
31.[单选题]以下方法可以改变数据量纲的是
A)对数据做归一化处理
B)对数据做z-score标准化
C)对数据取对数
D)以上都是
32.[单选题]为了保障流应用的快照存储的可靠性,快照主要存储在哪里?
A)jobmanager 的内存中
B)可靠性高的单机数据库中
C)本地文件系统中
D)hdfs 中
33.[单选题]以下不属于因子分析计算过程的步骤有( )
A)估计因子载荷矩阵
B)进行因子旋转
C)估计特殊因子得分
D)估计公共因子(因子得分)
34.[单选题]Hadoop组件在企业应用中,能用于大数据集实时查询的产品有( )。
A)Hive
B)Pig
C)Mahout
D)Hbase
35.[单选题]下列关于构造方法的叙述中,错误的是()
A)Java语言规定构造方法名与类名 必须相同
B)Java语言规定构造方法没有返回 值,但不用 void 声明
C)Java语言规定构造方法不可以重 载
D)Java语言规定构造方法只能通过 new 自动调用
36.[单选题]HBase表中每个cell的多版本是通过()表示的。
A)timestamp
B)rowkey
C)blockid
D)cellid
37.[单选题]一个多分类的变量“借款用途”,其水平有“娱乐”、“培训”、“生活基础”、 “旅游”、“其他”。将其转为哑变量后,有( )个对应的分类变量
A)1
B)3
C)4
D)5
38.[单选题]Zookeeper 在分布式应用中主要的作用不包括以下哪些选项?
A)选举Master 节点
B)保证各节点上数据的
C)分配集资源

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。