大数据理论考试(习题卷10)
说明:答案和解析在试卷最后
第1部分:单项选择题,共64题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]大数据计算服务的数据仓库的管理员发现用户表user没有备注信息,为了方便其他人员的使用,可以通过()方式给这张表加上备注。
A)alter
B)删除表user,在重建时指定comment选项
C)touch
D)change
2.[单选题]逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用()。
A)Sigmoid函数
B)tanh函数
C)ReLU函数
D)Leaky ReLU函数
3.[单选题]以等可能性为基础的概率是()
A)古典概率
B)经验概率
C)试验概率
D)主观概率
4.[单选题]当Kafka中日志片段大小达到()时,当前日志片段会被关闭。
直方图均衡化的基本原理A)1M
B)100M
C)1GB
D)10G
5.[单选题]Hadoop中partition()函数描述正确的是()。
A)分区函数
B)特征函数
C)算法函数
D)排序函数
6.[单选题]HadoopMapReduce2.0中,()负责资源的管理和调度。
A)JobTracker
B)YARN
C)TaskTracker
D)ApplicationMaster
D)256M
8.[单选题]直方图均衡化适用于增强直方图呈()分布的图像。
A)尖峰
B)波形
C)随机
D)高
9.[单选题]以下属于考虑词语位置关系的模型有()。
A)词向量模型
B)词袋模型
C)词的分布式表示
D)TF-ID
10.[单选题]进行主成分分析的前提条件是,各变量间()。
A)高度相关
B)低度相关
C)相互独立
D)完全相
11.[单选题]有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了(__)在数据产品开发中的重要性。
A)查全率
B)用户体验
C)数据可视化
D)查准率
12.[单选题]数据安全技术保护与信息系统“三同步”原则不包括以下哪项()。
A)同步规划
B)同步建设
C)同步使用
D)同步运维
13.[单选题]在逻辑回归输出与目标对比的情况下,以下评估指标中哪一项不适用()。
A)C-ROC
B)准确度
C)Logloss
D)均方误
14.[单选题]Python使用()符号标示注释。
A)&
B)*
C)#
D)//
15.[单选题]下列属于无监督学习的是()。
A)K-means
16.[单选题]以下描述中错误的是()。
A)数据科学中的“数据”不仅仅是“数值”,也不等同于“数值”
B)数据科学中的“计算”包括数据的查询、挖掘、洞见等
C)数据科学强调的是跨学科视角
D)数据科学不包括“理论知识”,只包括“领域实务经验”
17.[单选题]执行如下代码:
Import time
Print(time.time())
以下选项中描述错误的是()。
A)time 库是 Python 的标准库;
B)可使用 ime(),显示为更可读的形式;
C)time.sleep(5) 推迟调用线程的运行,单位为毫秒;
D)输出自1970年1月1日00:00:00 AM 以来的秒数;
18.[单选题]如果需要训练的特征维度成千上万,在高维情形下出现的数据样本稀疏、距离计算困难。我们通过什么方法可以缓解这个问题()。
A)K均值算法
B)支持向量机
C)降维
D)以上答案都不正确
19.[单选题]以下哪一种分布是二维随机变量的分布()。
A)正态分布
B)二项分布
C)边缘分布
D)指数分布
20.[单选题]Spark的特点不包括()
A)速度快
B)通用性
C)易用性
D)单一操作性
21.[单选题]以下算法中不属于基于深度学习的图像分割算法是()。
A)FCN
B)deeplab
C)Mask-RN
D)kN
22.[单选题]在情感分析中,下面哪个词不属于影响词()。
A)识别
B)开心
C)难过
D)无
23.[单选题]在Hadoop生态系统中,()可以将结构化的数据文件映射成一张数据库表,并提供简单的查询语言。
D)MapReduce
24.[单选题]()算法是决策树学习的基本算法,其他多数决策树学习方法都是它的变体。
A)Find-S算法
B)KNN算法
C)概念算法
D)I算
25.[单选题]如下哪些不是最近邻分类器的特点()。
A)它使用具体的训练实例进行预测,不必维护源自数据的模型
B)分类一个测试样例开销很大
C)最近邻分类器基于全局信息进行预测
D)可以生产任意形状的决策边
26.[单选题]在DAYU数据集成中,新建“表/文件迁移作业”作业第一步不需要填写的信息是
A)字段名称
B)目的连接名称
C)原链接名称
D)作业名
27.[单选题]下列语句中,哪个在 Python 中是非法的?
A)x=y=z=1
B)x=(y=z+1)
C)x,y=y,x
D)x+=y
28.[单选题]某篮运动员在三分线投球的命中率是2(1),他投球10次,恰好投进3个球的概率()。
A)128(15)
B)16(3)
C)8(5)
D)16(7
29.[单选题]在SQL语言分类中,以下属于DQL的是:
A)update
B)select
C)insert
D)delet
30.[单选题]阅读下面的程序:def func(): print(x) x=100func()执行上述语句后,输出的结果为()。
A)0
B)100
C)程序出现异常
D)程序编译失败
31.[单选题]回归方程判定系数的计算公式R^2=SSR/SST=1-SSE/SST,对判定系数描述错误的是()。
A)式中的SSE指残差平方和
B)式中的SSR指总离差平方和
C)判定系数用来衡量回归方程的扰合优度
32.[单选题]关于脏数据和乱数据的区分,以下哪种不属于脏数据()。
A)含有缺失数据
B)冗余数据
C)噪声数据
D)不规则形态数据
33.[单选题]DIKW金字塔模型中,顶层与底层的名称分别为()。
A)智慧与数据
B)知识与数据
C)智慧与数值
D)知识与数值
34.[单选题]假如使用一个较复杂的回归模型来拟合样本数据,使用Ridge回归,调试正则化参数λ,来降低模型复杂度。若λ较大时,关于偏差(bias)和方差(variance),下列说法正确的是()
A)若λ 较大时,偏差减小,方差减小
B)若λ 较大时,偏差减小,方差增大
C)若λ 较大时,偏差增大,方差减小
D)若λ 较大时,偏差增大,方差增
35.[单选题]以下描述中不属于“规整数据(TidyData)”三个基本原则的是()。
A)每一类观察单元构成一个关系(表)
B)每个观察占且仅占一行
C)每个变量占且仅占一列
D)每个观察占且仅占一个关系(表)
36.[单选题]大数据涌现现象的形式有多种,不属于大数据涌现的形式()。
A)价值涌现
B)隐私涌现
C)物质涌现
D)隐私涌现
37.[单选题]下列不属于MaxCompute项目空间的对象类型为:()。
A)表
B)Jar包
C)实例
D)资源
38.[单选题]下面关于词袋模型说法错误的是()。
A)词袋模型使用一个多重集对文本中出现的单词进行编码
B)词袋模型不考虑词语原本在句子中的顺序
C)词袋模型可以应用于文档分类和检索,同时受到编码信息的限制
D)词袋模型产生的灵感来源于包含类似单词的文档经常有相似的含
39.[单选题]大数据计算服务中,临时数据表tmp_item是一张非分区表,开发人员在建表时指定了lifecycle属性为30,且使用一次后未再进行任何操作和访问。30天后这张表会()。
A)tmp_item会被自动重命名为tmp_item.deleted
B)tmp_item表会被自动删除掉
C)不会任何变更
D)tmp_item中的数据会被清空,表结构仍存在
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论