《大数据分析师(初级)》考前模拟A3卷--688IT编程网

《大数据分析师（初级）》考前模拟A3卷1.【单选题】搜狗搜索引擎的爬虫叫（）。

A：百度蜘蛛

B:360Spider

C:Sogouspider

D:Bingbot

正确答案：C

2.【单选题】数据采集的（）与技术执行的速度、团队内部成员协同以及数据分析需求和目标实现的效率有关。

A：全面性

B：多维性

C：无序性

D：高效性

正确答案：D

答案解析：数据采集的高效性与执行速度、协调性有关。

3.【单选题】下列数据预处理任务，（）可以用来平滑数据，消除数据噪声。

A：数据清洗

B：数据集成

C：数据变换

D：数据规约

正确答案：A

答案解析：消除噪声属于数据清洗阶段的任务

4.【单选题】下列不是用于大数据查询分析计算的产品是（）。

A:Hive

B:HBase

C:SparkSQL

D:Dremel

正确答案：B

答案解析：Hbase是分布式存储技术。

5.【单选题】数据仓库—般都是存在层次架构的，比如可以分为ODS、DW、DM层，不同粒度的表，不同作用的表，一般会分布在不同的层级中，如下相关信息表存放在ODS层的有（）。

A：从源系统同步至数仓的粒度相同的一张登录日志表

B：日期为天粒度的登录统计表

C：从人的角度统计的登录情况表

D：日期为月粒度的登录统计表

正确答案：A

答案解析：ODS层存储的明细数据。

6.【单选题】从数据量方面来看，互联网系统和机器系统产生的数据量要（）企业系统的数据量。

A：远远大于

B：远远小于

C：等于

D：无法确定

正确答案：A

7.【单选题】数据规约的目的是（）。

A：填补数据中的空缺值

B：集成多个数据源的数据

C：得到数据集的压缩表示

D：规范化数据

正确答案：C

8.【单选题】下列陈述不正确的是（）。

A：大数据将实现科学决策

B：大数据使政府决策更加精准化

C：大数据彻底将体性事件化解在萌芽状态

D：大数据将实现预测式决策

正确答案：C

答案解析：由于大数据是从量变到质变的过程，加之数据被广泛挖掘，决策依据的信息完整性越来越高，依据信息的理性决策要高于以盲目决策。宏观层面中，大数据使得经济决策部门可以更加敏锐的把握经济走向，并制定实施科学的经济决策；在微观层面中，大数据可以提高企业经营决策水平和效率，推动创新，给企业以及所处的行业领域带来价值。

9.【单选题】下列哪项不是用于数据查询（）。

A:Union

B:DELETE

C:SELECT

D:Project

正确答案：B

答案解析：数据查询包括传统的并（Union）、交（Intersection）、差（Difference）等集合运算，以及选择（Select）、投影（Project）、连接（Join）除（Divide）等专门的关系运算。

10.【单选题】AnalyticDB的优势不包括（）。

A：更大规模和更快读写能力

B：更高可用和可靠性

C：更高安全

D：分布式计算能力

正确答案：D

答案解析：AnalyticDB有很多的优势：更大规模和更快读写能力、更高可用/可靠、更高安全和简单易用。

11.【单选题】下列属于列族数据库的是（）。

A:HBase

B:Redis

C:MySQL

D:MongoDB

正确答案：A

答案解析：列族数据库的相关产品包括：BigTable、HBase、Cassandra等。

12.【单选题】Zookeeper的主要作用是（）。

A：分布式的海量日志采集、聚合和传输

B：基于Hadoop的数据仓库

C：分布式列式数据库

D：分布式协调服务

正确答案：D

13.【单选题】利用Sqoop从关系数据库导入数据到Hive时，必须指定的参数为（）。

A:hive-table

B:hive-database

C:hive-import

D:fields_termiated_by

正确答案：C

答案解析：需要指定hive-import

14.【单选题】下列不属于分布式计算技术的是（）。

A:MapReduce

B:Spark

C:Flink

D:TensorFlow

正确答案：D

答案解析：分布式计算技术包括MapReduce、Spark和Flink，是大数据环境下的并行计算框架，而TensorFlow是深度学习计算框架。

15.【单选题】下列哪项不是大数据发展的技术支撑（）。

A：存储设备容量不断增加

B：网络带宽不断增加

C:CUP处理能力大幅提升

D：互联网数据量增加

正确答案：D

答案解析：信息技术的发展需要解决信息存储、信息传输和信息处理3个核心问题，人类社会在信息科技领域的不断进步，为大数据时代的到来提供了技术支撑。首先，随着科学技术的不断进步，存储设备容量大幅增加，另外CPU处理速度的不断提升也促使数据量不断增加，最后是网络带宽不断增加。

16.【单选题】数据合并（combine）是MapReduce Shuffle中一个重要环节，下列哪种应用不适合采用数据合并（）

。

A：求平均值

B：求最大值

C：求最小值

D：求和

正确答案：A

答案解析：combiner()函数并不适合所有的MapReduce应用，只适合具有结合律的操作，如求和、求最大值、求最小值等，但是，求平均值就不能进行合并运算了。

17.【单选题】散点矩阵图用于哪种类型的数据（）。

A：时间数据

B：比例数据

C：关系数据

D：文本数据

正确答案：C

答案解析：散点矩阵用于表示多维数据中任意两个维度之间的关系。

18.【单选题】DataWorks底层分布式集使用的是（）。

A:Hadoop平台

B:Spark平台

C：飞天系统

D：天空系统

正确答案：C

答案解析：DataWorks底层分布式集使用的是飞天系统。

19.【单选题】Spark的部署模式中哪种不是集部署模式（）。

A：本地模式

B:standalone模式

C:spark on yarn 模式

D:mesos模式

正确答案：A

答案解析：Spark应用程序在集上部署运行时，可以由不同的组件为其提供资源管理调度服务（资源包括CPU、内存等）。比如，可以使用自带的独立集管理器（standalone），或者使用YARN，也可以使用Mesos。因此，Spark除了本地部署外，包括三种不同类型的集部署方式，包括standalone、Spark on Mesos和Spark on YARN。

20.【单选题】HBase数据库中，数据存储是按（）进行排序的。

A：列族名称

B：列族限定符名称

C：行键

D：时间戳

正确答案：C

21.【单选题】（）被广泛用于购物篮分析。

A：关联分析

B：分类分析

C：聚类分析

D：回归分析

正确答案：A

22.【单选题】关于大数据对人类思维的影响，不正确的是（）。

A：从“流程”核心转变为“数据”核心

B：由关注相关性转变为因果关系

C：从抽样转变为需要全部数据样本

D：从关注精确性转变为关注效率

正确答案：B

答案解析：大数据的四个特征带来了新的思维方式：分别是全样而非抽样；效率而非精确；相关而非因果。

23.【单选题】（）将传统数据挖掘的思想和方法应用于Web，从Web资源和Web活动中爬取感兴趣的、潜在的、有用的

模式和隐藏信息。

A:Web挖掘

B：网络舆情

C：数据采集

D：离线浏览

正确答案：A

24.【单选题】关于探索性指标和报告性指标的描述错误的是（）。

A：探索性指标是推测性质的，去发现一些未知的东西

B：报告性指标是关于公司日常运营、管理相关的指标

C：营业额属于报告性指标

D：销售量属于探索性指标

正确答案：D

答案解析：销售额和销售量都属于报告性指标。

25.【单选题】数据集成主要解决数据的分布性和（）问题。

A：同构性

B：异构性

C：公开性

D：一致性

正确答案：B

答案解析：异构是集成首要解决的问题

26.【单选题】下列哪项不是Spark比MapReduce计算快的原因（）。

A：基于内存的计算

B：基于DAG的调度框架

C：基于Lineage的容错机制

D：基于分布式计算的框架

正确答案：D

答案解析：作为计算模型，在实际进行开发时，使用Hadoop需要编写不少相对底层的代码，不够高效。相对而言，Spark提供了多种高层次、简洁的API。我们从以下几个方面对比以下Hadoop和Spark的计算模型。首先Hadoop采用磁盘HDFS文件系统的split进行数据存储；Spark使用内存构建弹性分布式数据集RDD对数据进行运算。Spark的计算模式也属于MapReduce ，但不局限于Map和Reduce操作，还提供了多种数据集操作类型，编程模型比Hadoop MapReduce更灵活。最后Hadoop的任务以进程的方式维护，需要数秒时间才能启动任务；而spark的任务以线程的方式维护，对于小数据集读取能够达到亚秒级的延迟。Spark提供了内存计算，可将中间结果放到内存中，对于迭代运算效率更高

27.【单选题】关于HRegionServer功能描述，错误的是（）。

A：响应用户I/O

B：向HDFS读写数据

C:HLog记录日志

D：实现Region负载均衡

正确答案：D

答案解析：HRegionServer服务器的具体功能包括：负责响应用户的I/O请求，向HDFS分布式文件系统中读写数据；内部管理一系列HRegion对象，每个HRegion对象对应table中的一个Region。每个HRegion由多个HStore组成，每个HStore对应table中一个列族的存储，可以看出每个列族就是一个集中的存储单元。HRegionServer内部管理还包含一个HLog对象，存储数据日志，当HRegionServer发生故障时，利用HLog进行故障恢复。

28.【单选题】从底层次数据抽象出高层次的描述过程叫做（）。

A：抽样

B：离散化

C：数据立方体聚集

D：属性子集选择

正确答案：C

hbase属于什么数据库

答案解析：数据规约技术可以用来得到原始数据集的规约表示，从底层数据不断向上抽象的过程，是数据立方体聚集的构建过程。每一个较高层抽象将进一步减小结果数据的规模。

29.【单选题】下列关于MapReduce任务描述不正确的是（）。

A：不同的Map任务之间不会进行通信

B：不同的Reduce任务之间不会发生任何信息交换

C:Map需要考虑数据全局性

D：用户不能显式地从一台机器向另一台机器发送消息

正确答案：C

答案解析：在MapReduce工作工作中：不同的Map任务之间不会进行通信。

不同的Reduce任务之间也不会发生任何信息交换。 Map需要考虑数据局部性，Reduce无需考虑数据局部性。

用户不能显式地从一台机器向另一台机器发送消息。所有的数据交换都是通过MapReduce框架自身去实现的。

30.【单选题】在一年一度的天猫双十一活动过程中，可视化大屏会动态实时展示销售额、订单量等指标，请问这些指标采用的是什么可视化图表（）。

A：指标看板

B：仪表盘

C：极坐标

D：词云图

正确答案：A

答案解析：指标看板用于突出显示单个的值。

31.【单选题】DataWorks的核心功能和特点不包括下列哪项（）。

A：数据集成

B：数据开发

C：数据管理

D：数据分析

正确答案：D

答案解析：DataWorks是阿里云重要的PaaS平台产品，可以为用户提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务，

32.【单选题】“全国疫情新增趋势”可能是可视化图形中的哪部分（）。

A：坐标轴

B：刻度

C：图例

D：标题

正确答案：D

33.【单选题】通过大数据分析深入数据挖掘，无法实现（）。

A：个性化营销和服务

B：实现预测性营销

C：洞察客户特性

D：提前消费

正确答案：D

答案解析：大数据在商业领域有着很多应用，比如商品推荐，可以分析一个用户的购买记录到和他曾经购买过产品相似度最高的其他产品，这些产品用户可能会更加感兴趣，因为和他曾经购买过的产品相似度足够高，这样就可以将用户更有可能感兴趣的这部分产品推荐给他。除了个性化推荐以外，大数据

还可以做到精准营销，精准匹配。很多企业会对自己的用户体进行用户画像。用户画像是根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化用户模型。构建用户画像的核心工作即是给用户贴“标签”，当一个用户的习惯行为等数据积累了足够多以后，用户身上也被企业贴上了大量的标签，有可能大数据会比你自己更了解你。通过这些标签，企业在进行广告投放时就可以直接到有着相应标签的精准体。

34.【单选题】从数据产生速度来看，传统数据采集的数据几乎都是由人操作生成的，（）机器生成数据的效率。

A：远远快于

B：等于

C：远远慢于

688IT编程网

《大数据分析师(初级)》考前模拟A3卷

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

《大数据分析师(初级)》考前模拟A3卷

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法