大数据开发基础(试卷编号1201)
1.[单选题]在HBase中,过滤器顶层抽象类是( )
A)Filter
B)FilterList
C)WhileMatchFilter
D)SkipFilter
答案:A
解析:
2.[单选题]假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值,那么现在关于模型说法, 正确的是 :
A)模型分类的召回率会降低或不变
B)模型分类的召回率会升高
C)模型分类准确率会升高或不变
D)模型分类准确率会降低
答案:A
解析:
3.[单选题]情感信息抽取不包括以下哪些方法?()
A)基于命名实体识别的抽取方法
B)基于重复段落的识别方法
C)基于语义角标注的抽取方法
D)基于监督学习抽取的学习方法
答案:B
解析:
4.[单选题]在增量同步阶段,源数据库和目标数据库之间的同步有时会存在一个时间差,称为:(),单位为秒。
A)延误
B)延后
C)延迟
D)时延
答案:D
解析:
5.[单选题]()是存储在计算机内的有结构的数据集合
A)网络系统
B)数据库系统
C)操作系统
6.[单选题]信息技术发展史上的第二次信息化浪潮发生在( ).
A)1950年前后
B)1980年前后
C)1995年前后
D)2010年前后
答案:C
解析:
7.[单选题]大数据计算服务的数据仓库的管理员发现用户表user没有备注信息,为了方便其他人员的使用,可以通过( )方式给这张表加上备注。
A)alter table user set comment’ my comment’;
B)删除表user,在重建时指定comment选项
C)touch table user set commnt’ my comment’;
D)change table user set comment’ my comment;
答案:A
解析:
8.[单选题]当( )时,可以不考虑 RDD 序列化处理。
A)完成成本比较高的操作后
B)执行容易失败的操作之前
C)RDD 被重复使用
D)实时性要求高
答案:D
解析:RDD 的序列化处理主要在完成成本比较高的操作之后、执行容易失败的操作之前、当 RDD 被重复使用或者计算其代价很高时进行。
9.[单选题]以下变量名中错误的是( )。
A)my_string_1
B)1st_string
C)foo
D)_
答案:B
解析:
10.[单选题]互联网信息化的发展的动力是( )
A)技术创新
B)原创性创新
C)机制创制
11.[单选题]下列Python语法表述不正确的是
A)if语句的第二行必须有缩进
B)while语句的第二行必须有缩进
C)else后不加冒号
D)while循环语句的条件之后必须有冒号
答案:C
解析:
12.[单选题]( )是指理解挖掘项目的目标业务需求。
A)业务理解
B)数据理解
C)数据准备
D)数据建模
答案:A
解析:根据跨行业数据挖掘标准流程(cross-industry standard process for data mining,CRISP-DM )模型,业务理解是指从业务的角度了解项目的要求和最终目的,并将这些目的与数据挖掘的定义以及结果结合起来。
13.[单选题]下列关于在 Matplotlib 的说法正确的是( )。
A)散点图不能在子图中绘制
B)散点图的 x 轴刻度必须为数值
C)折线图可以用作查看特征间的趋势关系
D)箱线图可以用来查看特征间的相关关系
311
答案:C
解析:A、B 选项,散点图可以在子图中绘制且x 轴刻度可以是文本等非数值,D 选项中箱线图由于查看数据的分布。
14.[单选题]以下图像分割方法中,属于基于图像灰度分布的阈值方法的是
A)区域合并、分裂法
B)最大类间、内方差比法
C)已知形状的曲线检测
D)区域生长法
答案:B
解析:
15.[单选题]有关python,下列说法不正确的是?
A)Python是一门面向对象的解释性程序设计语言
B)Python程序的可以在IDLE和pycharm里进行开发
C)Python功能很强大,可以编写网页和游戏
D)Python只能在Windows系统下编写
答案:D
解析:
16.[单选题]Scipy 通常与( )同时使用。
A)Pandas
B)Scikit-learn
C)Numpy
D)Jieba
答案:C
解析:Scipy 是另一种使用 Numpy 来做高等数学、信号处理、优化、统计和许多其他科学任务的语言扩展,通常与 Numpy 搭配使用。
17.[单选题]下列语句在 Python 中非法的是( )。
A)x=y=z=1
B)x=(y=z+1)
C)x,y=y,x
D)x+=y
答案:B
解析:赋值语句不能用于赋值。
18.[单选题]落实国家大数据安全保护要求时,需进一步明确大数据采集、传输、存储、使用、开放等各环节的()和具体措施。
A)责任主体
B)生产成本
C)关键技术
D)标准规范
答案:A
解析:
19.[单选题]HBase交互模式中,创建命名空间的语法是( )
A)create namespace '自定义命名空间名称'
B)create_namespace '自定义命名空间名称'
C)alter namespace '自定义命名空间名称'
D)alter_namespace '自定义命名空间名称'
答案:B
解析:
20.[单选题]大数据计算服务(MaxCompute,原ODPS )的tunnel命令行工具对上传的数据有格式上的要求,它支持( )格式的数据。
A)JSON文件
B)xml文件
C)xls文件
D)csv文件
答案:D
解析:
21.[单选题]执行以下代码段a = set('apple')b = set('orange')print(a|b)时,输出为( )。
A){'l', 'e', 'a', 'p'}
B){'r', 'a', 'g', 'e', 'n', 'o'}
C){'l', 'p', 'g', 'o', 'e', 'n', 'a', 'r'}
D){'r', 'g', 'n', 'o', 'l', 'p'}
答案:C
解析:
22.[单选题](__)属于基于概念方法。
A)决策树算法
B)Find-S算法
C)人工神经网络
D)KNN
答案:B
解析:
23.[单选题]对模型进行超参数优化,详尽搜索指定参数的估计值使用( )函数。
A)ParameterGrid()
B)ParameterSampler()
C)GridSearchCV()
D)RandomizedSearchCV()
答案:C
解析:ParameterGrid 网格搜索,ParameterSampler 参数生成器,GridSearchCV 详尽搜索指定参数的估计值,RandomizedSearchCV 随机搜索超参数。
24.[单选题]计算机显示器主要采用哪一种彩模型()。
A)RGB
正则化过滤器B)CMY和CMYK
C)HIS
D)HSV
答案:A
解析:
25.[单选题]阅读下列程序def e_check(n):t = 0if (n >500):t=n0.9elif (n >200):t=n0.7else:t = n 0.6return tprint("电费:",e_check(100))运行结果是

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。