《大数据分析师(初级)》考前模拟A2卷1.【单选题】()是阿里云提供的分析并展示庞杂数据的产品。
A:DataWorks
B:PAI
C:Maxcompute
D:DataV
正确答案:D
2.【单选题】(  )是当前网民们针对热点社会事件及社会政治经济状况等内容反映出的态度总和。
A:Web挖掘
B:网络舆情
C:数据采集
D:离线浏览
正确答案:B
3.【单选题】信息技术的发展使得信息存储问题得以解决,是因为()。
A:存储设备容量大幅增加,价格上升
B:存储设备容量大幅增加,速度下降
C:存储设备容量大幅增加,速度提升,价格不断下降
D:存储设备容量大幅增加,速度不断提升,价格却也在不断上升
正确答案:C
答案解析:随着科学技术的不断进步,存储设备容量大幅增加,速度不断提升,价格却在不断下降。
4.【单选题】(  )通过将属性域划分为区间,从而减少给定连续值的个数。
A:概念分层
B:离散化
C:分箱
D:直方图
正确答案:B
5.【单选题】关于MapReduce的工作过程描述不正确的是(  )。
A:不同的Map任务之间不会进行通信
B:不同的Reduce任务之间不会发生任何信息交换
C:Map需要考虑数据局部性,Reduce无需考虑数据局部性
D:当所有Map任务完成后,才启动Reduce任务
正确答案:D
答案解析:在MapReduce工作工作中: 不同的Map任务之间不会进行通信。
不同的Reduce任务之间也不会发生任何信息交换。 Map需要考虑数据局部性,Reduce无需考虑数据局部性。
用户不能显式地从一台机器向另一台机器发送消息。 所有的数据交换都是通过MapReduce框架自身去实现的
6.【单选题】下列不适用于大数据流实时计算的产品是()。
A:Storm
B:DStream
C:Flink
D:MapReduce
正确答案:D
答案解析:分布式实时计算包括Storm、Dstream和Flink。
7.【单选题】Hadoop组件中的分布式资源管理框架是(  )。
A:Flume
B:Zookeeper
C:Yarn
D:Storm
正确答案:C
8.【单选题】在电商平台常用数据指标中,下列属于描述用户特征的基础指标的是(  )。
B:平均访问时长
C:次日留存
D:独立访客
正确答案:C
答案解析:跳出率、平均访问时长和独立访客属于网页相关的指标,只有次日留存率是描述用户特征的。
9.【单选题】视图作用的描述不正确的是(  )。
A:视图提高数据存储效率
B:视图能够简化用户的操作
C:视图能够对机密数据提供安全保护
D:视图使用户能以多种角度看待同一数据
正确答案:A
答案解析:在数据库中,使用视图具有下列作用:能够简化用户的操作;使用户能以多种角度看待同一数据;对重构数据库提供了一定程度的逻辑独立性;能够对机密数据提供安全保护;适当的利用视图可以更清晰的表达查询。
10.【单选题】饼图中不能用于表示信息量大小的是(  )。
A:角度
B:弧度
C:半径
D:面积
正确答案:C
答案解析:饼图中使用角度或者弧度或者面积来表示信息量的大小。
11.【单选题】下列关于虚荣指标和北极星指标的描述正确的是(  )。
A:注册用户数和活跃用户数都是虚荣指标
B:注册用户数和活跃用户数都是北极星指标
C:注册用户数是虚荣指标,活跃用户数是北极星指标
D:注册用户数是北极星指标,活跃用户数是虚荣指标
正确答案:C
答案解析:注册用户数不能真实反映平台的使用情况,只有活跃用户数才能反映平台的使用情况。
12.【单选题】下列属于图形数据库的是(  )。
A:HBase
B:MongoDB
C:Neo4J
D:Oracle
hbase属于什么类型数据库正确答案:C
答案解析:图数据库的相关产品包括:Neo4J、OrientDB、InfoGrid、GraphDB等。
13.【单选题】大数据计算模式有四种,对电子商务网站购物平台数据的实时分析处理过程属于()。
A:流计算
B:批处理计算
C:图计算
D:查询分析计算
正确答案:A
14.【单选题】在MapReduce计算模型中,Map任务数量是由什么决定的(  )。
A:文件大小
B:文件数量
C:节点数量
D:分片数量
正确答案:D
15.【单选题】第三次信息化浪潮的出现标志是()。
A:个人计算机开始普及
B:人类开始全面进入互联网时代
C:计算、大数据、物联网的快速发
D:人工智能技术高速发展
答案解析:1980年个人计算机开始普及,大大提高了社会生产力。随后在1995年前后,人类开始全面进入互联网时代,迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴和百度等互联网巨头。在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代到来
16.【单选题】Hive中修改表结构的关键字是(  )。
A:create
B:alter
C:update
D:drop
正确答案:B
答案解析:Hive中修改表结构、修改分区和修改列都使用alter table…。
17.【单选题】Hadoop的高可扩展性是因为()。
A:主从结构
B:很便捷地将更多的节点增加到计算任务中
C:数据进行分块存储,每一块的数据都会备份若干份储存在不同的节点下
D:配置成本高
正确答案:B
答案解析:Hadoop本身就是为了解决分布式存储和分布式计算问题的,所以很容易将更多的节点添加到集中。
18.【单选题】大数据采集是指从()、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程。
A:传感器和智能设备
B:传感器
C:智能设备
D:传统硬件
正确答案:A
答案解析:大数据采集是指从传感器和智能设备、企业在线系统、企业离线系统、社交网络和互联网平台等获取数据的过程
19.【单选题】表示全球新冠肺炎每日确诊数量的曲线图属于什么类型的可视化(  )。
A:时间数据可视化
B:比例数据可视化
C:关系数据可视化
D:文本数据可视化
正确答案:A
答案解析:每日确诊数量属于随时间变化的数据,属于时间数据可视化。
20.【单选题】在数据仓库系统中,元数据是描述数据仓库内数据的结构和建立方法的数据,下列关于元数据说法错误的是(  )。
A:元数据按其用途分为技术元数据和业务元数据
B:技术元数据是存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据
C:业务元数据主要包括业务术语、信息分类、指标定义和业务规则等信息
D:元数据也可以是业务数据,是业务行为的一种体现
正确答案:D
答案解析:业务数据不是元数据。
21.【单选题】大数据在哪个领域的应用是最为成熟的(  )。
A:教育领域
B:商业领域
C:医疗领域
D:智能城市领域
正确答案:B
答案解析:目前,大数据在商业领域的应用是最为成熟的。这主要有两个原因。第一个原因是商业领域变现更快,大数据能够快速、直接地体现出来价值。另外一个原因是商业领域产生的数据量非常庞大,消费者的行为都会成为对企业非常有价值的数据来源,这也让大数据能够在商业领域落地有了非常扎实的基础。
22.【单选题】下列哪项通常是集的最主要的性能瓶颈()。
A:CPU
B:网络
C:磁盘
D:内存
正确答案:C
答案解析:磁盘IO是主要的性能瓶颈。
23.【单选题】下列哪项不是MapReduce执行过程中必需的(  )。
A:数据输入,对数据进行分片
B:Map任务输出中间键值对
C:Shuffle任务对数据进行合并
D:Reduce任务对数据进行汇总输出
正确答案:C
答案解析:MapReduce执行过程中,combiner过程是可选的
24.【单选题】将原始数据进行集成、变换、维度规约、数值规约属于(  )步骤的任务。
A:分类预测
B:回归预测
C:数据预处理
D:聚类挖掘
正确答案:C
25.【单选题】关于大数据特征描述不正确的是(  )。
A:数据量大
B:数据价值密度高
C:数据类型多样
D:数据产生处理速度快
正确答案:B
答案解析:大数据的四个特点,包含四个层面:第一,数据体量巨大。从TB级别,跃升到PB级别;第二,数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三,处理速度快。1秒定律也是和传统的数据挖掘技术有着本质的不同。第四,价值密度低,商业价值高。以视频为例,连续
不间断监控过程中,可能有用的数据仅仅有一两秒。
26.【单选题】Spark可运行于YARN之上,与Hadoop进行统一部署,即“Spark  on  YARN”,分布式存储则依赖(
)。
A:HBase
B:Client
C:HDFS
D:Zookeeper
正确答案:C
答案解析:Spark可运行于YARN之上,与Hadoop进行统一部署,即“Spark on
YARN”,资源管理和调度依赖YARN,分布式存储则依赖HDFS。
27.【单选题】下列关于SQL语言描述不正确的是(  )。
A:面向集合的操作方式
B:既是自含式语言,又是内嵌式语言
C:高度过程化语言
D:将各种操作融为一体
正确答案:C
答案解析:SQL语言之所以能成为关系数据库的标准语言,并得到广泛的应用,其原因在于SQL语句具有以下特点。(1)功能一体化:几乎涵盖了对数据库的所有操作,语言风格统一。(2)高度的非过程化:在使用SQL语言操作数据库时,用户只需要说明“做什么”,而不需要说明“怎样做”。用户任务的实现对用户而言是透明的,由系统自动完成。这大大减轻了用户的负担,同时降低了对用户的技术要求。(3)面向集合的操作方式:SQL语言采用集合操作方式,不仅查询结果可以是多条记录的集合,而且一次插入、删除、修改操作的对象也可以是多条记录的集合。面向集合的操作方式极大地提高了对数据操作的效率。(4)多种使用方式:SQL语句既是自含式语言,又是嵌入式语言。SQL语言可以直接以命令方式与数据库进行交互,也可以嵌入其他的高级语言中使用。(5)简洁、易学:SQL语言命令数量有限,语法简单,接近于自然语言,因此容易学习和掌握。
28.【单选题】利用Sqoop进行数据同步描述错误的是(  )。
A:将关系数据库数据导入HDFS
B:将关系数据库数据导入Hive
C:将关系数据库数据导入HBase
D:将HDFS数据导入Hive
正确答案:D
答案解析:Sqoop是一款开源的工具,主要用于在Hadoop与传统的关系数据库间进行数据的传递
29.【单选题】第一次信息化浪潮的出现标志是()。
A:个人计算机开始普及
B:人类开始全面进入互联网时代
C:计算机、大数据、物联网的快速发展
D:人工智能技术高速发展
正确答案:A
答案解析:1980年个人计算机开始普及,大大提高了社会生产力。随后在1995年前后,人类开始全面进入互联网时代,迎来了第二次信息化浪潮,这个时期也缔造了雅虎、谷歌、阿里巴巴和百度等互联网巨头。在2010年前后,云计算、大数据、物联网的快速发展,拉开了第三次信息化浪潮的大幕,大数据时代到来
30.【单选题】下列()的数据来源一定是Interner。
A:网络爬虫
B:数据采集
C:数据可视化
D:数据通信
正确答案:A
31.【单选题】关于数据同步描述不正确的是(  )。
A:可以进行离线数据同步
B:可以进行在线数据同步
C:可以进行数据流同步
D:可以进行批量数据的实时同步
正确答案:D
答案解析:数据同步可以是离线同步、在线实时同步。数据流同步属于实时同步,而批量数据同步属于延迟性同步
32.【单选题】下列哪个可视化工具是阿里云平台提供的(  )。
A:Processing
B:Quick  BI
C:Tableau
D:Echarts
正确答案:B
答案解析:Quick BI是阿里云的可视化工具。
33.【单选题】下列不属于分布式数据库的是(  )。
A:TBase
B:TDSQL
C:GoldenDB
D:FoxPro
正确答案:D
答案解析:当前国内市场主流分布式数据库产品有TBase、GoldenDB、TDSQL、Ocean Base等。
34.【单选题】大数据技术的核心技术是(  )。
A:分布式计算与分布式控制
B:分布式数据采集与分布式计算
C:并行计算与并行可视化
D:分布式存储与分布式计算
正确答案:D
35.【单选题】在MapReduce工作过程中,关于Shuffle描述错误的是(  )。
A:根据Reduce数量进行分区
B:根据键值进行降序排序
C:根据键值进行合并
D:根据键值进行归并
正确答案:B

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。