大数据开发基础(习题卷40)--688IT编程网

大数据开发基础(习题卷40)

第1部分：单项选择题，共57题，每题只有一个正确答案，多选或少选均不得分。

1.[单选题]Client在HDFS上进行文件写入时，namenode根据文件大小和配置情况，返回部分datanode信息，谁负责将文件划分为多个Block，根据DataNode的地址信息，按顺序写入到每一个DataNode块

A)Client

B)Namenode

C)Datanode

D)Secondary namenode

答案:A

解析:HDFS文件写入

【吐槽：Client对Client】

2.[单选题]计算机显示器主要采用哪一种彩模型（）。

A)RGB

B)CMY和CMYK

C)HIS

D)HSV

答案:A

解析:

3.[单选题]从大量数据中提取知识的过程通常称为（）。

A)数据挖掘

B)人工智能

C)数据清洗

D)数据仓库

答案:A

解析:

4.[单选题]当用户输入abc时，下面代码的输出结果是:try: n = 0 n = input("请输入一个整数: ") def pow10(n): return n**10except: print("程序执行错误")

A)输出：abc

B)程序没有任何输出

C)输出：0

D)输出：程序执行错误

答案:B

解析:

5.[单选题]下列哪些不属于词袋模型的应用？

A)文档分类

B)提取文章主题

C)文本向量化

D)统计词频

答案:D

解析:

6.[单选题]关于特征工程，以下说法错误的是：

A)本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用；

B)数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已

C)特征抽取是尽可能多的发掘特征，但过多的特征会造成冗余、噪声、过拟合等问题；

D)特征工程是数据分析的第一步

答案:D

解析:

7.[单选题]（__）是分类正确的样本数占样本总数的比例。

A)精度

B)错误率

C)偏差

D)误差

答案:A

解析:

8.[单选题]根据《大数据应用推动考核办法》，总行每月拿出（）元考核资金作为考核款。

A)5000

B)10000

C)15000

D)20000

答案:B

解析:

9.[单选题]下列有关HDFS的容错机制描述错误的是( )。

A)HDFS可以使用机架位感知的方法实现容错机制

B)HDFS可以使用基于erasure code的方法实现容错机制

C)HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器，然后在拷贝一份到其他服务器

D)HDFS使用机架位感知的方法先把一份拷贝放入同机架上的机器，然后在拷贝一份到同机架机器的不同位置上

答案:D

解析:

10.[单选题]云计算就是把资源都放到（）

A)对等网

B)互联网

C)广域网

D)无线网

答案:B

解析:

11.[单选题]以下删除数据库emp正确的( )

A)Delete * from emp

B)Drop database emp

C)Drop * from emp

D)delete database emp

答案:B

解析:

12.[单选题]HBase中需要根据某些因素来确定一个单元格，这些因素可以视为一个“四维坐标”，下面哪个不属于“四维坐标”？

A)行键

B)关键字

答案:B

解析:

13.[单选题]下列对于PCA说法:

①我们须在使用 PCA前标准化数据;

②我们应该选择使得模型有最大 variance 的主成分;

③我们应该选择使得模型有最小 variance 的主成分;

④我们可以使用 PCA 在低维度上做数据可视化。正确的是( )。

A)①、②、④

B)②、④

C)③、④

D)①、③

答案:A

解析：须在使用 PCA前标准化数据，应选择使得模型有最大 variance 的主成分,PCA 在低维度上做数据可视化。

14.[单选题]以下叙述正确的是。（）

hbase主要用来储存什么数据A)continue语句的作用是结束整个循环的执行

B)只能在循环体内使用break语句

C)在循环体内使用break语句或continue语句的作用相同

D)从多层循环嵌套中退出时，只能使用goto语句

答案:B

解析:

15.[单选题]图灵奖获得者Jim Gray提出的科学研究的第四范式---数据密集型科学发现(Data-intensiveScientific Discovery) 描述了数据科学的（）

A)三要素原则

B)数据复杂性原则

C)三世界原则

D)从简原则

答案:C

解析:

16.[单选题]BI工具采用哪种分析方式？( )

A)自助式探索

B)图表展示

C)查询搜索

D)人工互助

答案:A

解析:

17.[单选题]Spark核心层主要关注( )问题。

A)存储

B)计算

C)传输

D)连接

答案:B

解析:Spark核心层定义,Spark 核心层主要关注计算问题。

18.[单选题](__)试图学得一个线性模型以尽可能准确地预测实值输出标记。

C)贝叶斯分类器

D)神经网络

答案:B

解析:

19.[单选题]HDFS中当前block大小为64M，如果当前要上传到HDFS中的文件大小为150M，那么在存储时会分配（）个block进行存储。

A)1

B)2

C)3

D)4

答案:D

解析:

20.[单选题]下列对于精度的描述，解释正确的是（__）。

A)统计分类器预测出来的结果与真实结果不相同的个数，然后除以总的样例集D的个数。

B)先统计分类正确的样本数，然后除以总的样例集D的个数。

C)预测为正的样例中有多少是真正的正样例

D)样本中的正例有多少被预测正确

答案:B

解析:

21.[单选题]info='abc'

Info[2]='d' 的输出结果是（）。

A)TypeError：'str'object does not support item assignment

B)b

C)c

D)d

答案:A

解析：字符串不能被修改。

22.[单选题]()用于说明在父 RDD上执行何种计算。

A)分区

B)算子

C)日志

D)数据块

答案:B

解析：算子是 Spark中定义的函数，用于对 RDD中的数据进行操作、转换和计算。

23.[单选题]下列选项中关于统一数据访问接口功能叙述不正确的一项为（）。

A)不同的数据展示、存储和管理

B)访问接口与实现代码分离的原则

C)屏蔽了数据源的差异和数据库操作细节

D)提供一个统一的访问界面和一种统一的查询语言

答案:A

解析:

24.[单选题]以下扫描算子中用于对列存表进行扫描的算子是：（）。

A)SeqScan

B)CstoreScan

C)SubqueryScan

D)ValuesScan

答案:B

解析:

25.[单选题]KNN算法中K指的是:

A)K个样本

B)相邻的K个邻居

C)K次迭代

D)K次方

答案:B

解析:

26.[单选题]下列有关HBase的跳转过滤器SkipFilter描述错误的是（）

A)跳转过滤器可以对用户提供的过滤器进行包装

B)当被包装的过滤器遇到某一行中某一列需要过滤时，那么整行数据都将被过滤掉

C)被包装的过滤器必须实现filterKeyValue()方法，否则SkipFilter无法正常工作

D)跳转过滤器不可以对用户提供的过滤器进行包装

答案:D

解析:

27.[单选题]one-hot单个属性编码的个数取决于（）

A)所有样本中该属性出现的最高频率的取值

B)样本个数

C)所有样本中该属性的最大值

D)所有样本中该属性可取值的个数

答案:D

解析:

28.[单选题]关于ADS的聚集列，下列说法不正确的是：（）。

A)如果用户的查询Query的条件中会指定聚集列的内容或范围，那么这样的查询性能便会有较大的提升

B)聚集列可以在建表后进行修改，修改后DB会在后台自动刷新数据

C)一个分区内聚集列内容相同的数据会尽可能的分布在同样的区块内存

D)创建表时可以指定一列或者若干列作为聚集列

答案:B

解析:

29.[单选题]下列关于仪表盘图的说法中，错误的是( )

A)仪表盘图可以直观地表现出某个指标的进度或实际情况

B)一个可视化组建中只能创建一个仪表盘，无法同时展示多个仪表盘

C)仪表盘中的仪表板最大值为目标值

D)仪表盘中指针指向的位置为指针值，即当前值

答案:B

解析:

30.[单选题]print(53)运行的结果

A)53

B)15

C)出错

D)以上都不是

688IT编程网

大数据开发基础(习题卷40)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

688IT编程网

大数据开发基础(习题卷40)

发表评论

推荐文章

随机森林算法介绍及R语言实现

基于随机森林优化的神经网络算法在冬小麦产量预测中的应用研究_百度文 ...

基于正则化贪心森林算法的情感分析方法研究

随机森林算法和grandientboosting算法

基于随机森林的图像分类算法研究

热门文章

随机森林特征选择原理

自动驾驶系统中的随机森林算法解析

随机森林算法及其在生物信息学中的应用

监督学习中的随机森林算法解析(六)

随机森林算法在数据分析中的应用

机器学习——随机森林,RandomForestClassifier参数含义详解

随机森林 的算法

随机森林算法作用

监督学习中的随机森林算法解析(十)

随机森林算法案例

随机森林案例

二分类问题常用的模型

绘制ssd框架训练流程

一种基于信息熵和DTW的多维时间序列相似性度量算法

SVM训练过程范文

如何使用支持向量机进行股票预测与交易分析

二分类交叉熵损失函数binary

tinybert_训练中文文本分类模型_概述说明

基于门控可形变卷积和分层Transformer的图像修复模型及其应用

人工智能开发技术的测试和评估方法

最新文章

基于随机森林的数据分类算法改进

人工智能中的智能识别与分类技术

基于人工智能技术的随机森林算法在医疗数据挖掘中的应用

随机森林回归模型的建模步骤

r语言随机森林预测模型校准曲线

《2024年随机森林算法优化研究》范文

标签列表

随机森林的算法