大数据理论考试(试卷编号251)
1.[单选题]在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-
fitting)中影响最大()
A)多项式阶数
B)更新权重 w 时,使用的是矩阵求逆
C)使用常数项D.使用梯度下降
答案:A
解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。
2.[单选题]假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是()。
A)训练样本准确率一定会降低
B)训练样本准确率一定增加或保持不变
C)测试样本准确率一定会降低
D)测试样本准确率一定增加或保持不
答案:B
解析:在模型中增加更多特征一般会增加训练样本的准确率,减小偏差。但测试样本准确率不一定增加,除非增加的特征是有效特征。
3.[单选题]下列不是数据科学项目的主要角()。
A)项目发起人
B)项目经理
C)操作人员
D)验收人员
答案:D
解析:数据科学项目涉及的主要角有:项目发起人(Project Sponsor)、项目经理(Project Manager)、客户(Client)、数据科学家(Data Scientist)、数据工程师(Data Engineer)、操作员(Operations)等
4.[单选题]以下聚合函数,用于求数据平均值的是
A)MAX
B)SUM
C)COUNT
D)AV
答案:D
解析:
5.[单选题]Hadoop生态系统中,HBase是一种()。
A)分布式文件系统
B)数据仓库
C)实时分布式数据库
D)分布式计算系统
答案:C
解析:HBase是一个面向列的实时分布式数据库。
6.[单选题]DWS的stream算子不包括下列哪个:
A)broadcast
B)gather
C)redistribute
D)has
答案:D
解析:
7.[单选题]关于抛出异常的说法中,描述错误的是()。
A)当raise指定异常的类名时,会隐式地创建异常类的实例
B)显式地创建异常类实例,可以使用raise直接引发
C)不带参数的raise语句,只能引发刚刚发生过的异常
D)使用raise抛出异常时,无法指定描述信息
答案:D
解析:raise语句的第一个参数指定要产生的例外的名字;可选的第二参数指定例外的参数。
8.[单选题]有研究发现“页面的显示速度每延迟1s,网站访问量就会降低11%,从而导致营业额或者注册量减少7%,顾客满意度下降16%”。该项研究表明了(__)在数据产品开发中的重要性。
A)查全率
B)用户体验
C)数据可视化
D)查准率
答案:B
解析:在大数据时代,用户体验更加重要。
9.[单选题]下面代码运行后,a、b、c、d四个变量的值,描述错误的是()。
Import copy
A = [1,2,3,4,['a','b']]
B = a
C = py(a)
D = copy.deepcopy(a)
A\append(5)
A[4]\append('c')
A)a == [1,2,3,4,['a','b','c'],5]
B)b == [1,2,3,4,['a','b','c'],5]
C)c == [1,2,3,4,['a','b','c']]
D)d == [1,2,3,4,['a','b',‘c’]]
答案:D
解析:直接赋值,默认浅拷贝传递对象的引用而已,原始列表改变,被赋值的b也会做相同的改变
;copy浅拷贝,没有拷贝子对象,所以原始数据改变,子对象会改变;深拷贝,包含对象里面的自对象的拷贝,所以原始对象的改变不会造成深拷贝里任何子元素的改变。
10.[单选题]已知数组 trans_cnt[1, 2, 3, 4],trans_cnt[2] 获取的结果为()
A)1
B)2
正则匹配到第一个关键字就停止C)3
D)4
答案:C
解析:
11.[单选题]在情感分析任务中,其目的是将无结构化的情感文本转化成计算机容易识别和处理的结构化文本,进而供情感分析上层的研究和应用服务的是()。
A)情感信息检索
B)情感信息抽取
C)情感信息分类
D)情感信息归
答案:B
解析:情感分析上层的研究和应用主要是为情感信息抽取。
12.[单选题]下列场景中最有可能应用人工智能的是()。
A)刷脸办电
B)舆情分析
C)信通巡检机器人
D)以上答案都正
答案:D
解析:人工智能应用的范围很广,包括:计算机科学,金融贸易,医药,诊断,重工业,运输,远程通讯,在线和电话服务,法律,科学发现,玩具和游戏,音乐等诸多方面,刷脸办电、舆情分析、信通巡检机器人当然都能很好的应用到人工智能,选D。
13.[单选题]下列关于大数据的分析理念的说法中,错误的是()。
A)在数据基础上倾向于全体数据而不是抽样数据
B)在分析方法上更注重相关分析而不是因果分析
C)在分析效果上更追求效率而不是绝对精确
D)在数据规模上强调相对数据而不是绝对数据
答案:D
解析:在大数据的分析理念中,数据规模上强调绝对数据而不是相对数据。
14.[单选题]下面购物篮能够提取的3-项集的最大数量是多少( )ID:购买项1 牛奶,啤酒,尿布2面包,黄油,牛奶3 牛奶,尿布,饼干4 面包,黄油,饼干5 啤酒,饼干,尿布6 牛奶,尿布,面包,黄油7 面包,黄油,尿布8 啤酒,尿布9 牛奶,尿布,面包,黄油10 啤酒,饼干
A)1
B)2
C)3
D)4
答案:C
解析:
15.[单选题]以下哪项是 Spark 2.x程序统一入口?
A)StreamingContext
B)SqlContext
C)HiveContext
D)SparkSessio
答案:D
解析:
16.[单选题]多层前馈神经网络描述错误的是:(__)。
A)输出层与输入层之间包含隐含层,且隐含层和输出层都拥有激活函数的神经元
B)神经元之间存在同层连接以及跨层连接
C)输入层仅仅是接收输入,不进行函数处理
D)每层神经元上一层与下一层全互
答案:B
解析:多层前馈神经网络的特点:1.每层神经元与下一层神经元之间完全互连2.神经元之间不存在同层连接3.神经元之间不存在跨层连接
17.[单选题]模型构建完毕需要对模型进行评估量化,需要用到哪个模块()。
A)utils
B)mixture
C)metrics
D)manifold
答案:C
解析:ics包含了用于模型评估的多种量化评价方法,包括均方误差,准确率等。
18.[单选题]大数据是指不用随机分析法这样的捷径,而采用()的方法。
A)所有数据
B)部分数据
C)少量数据
D)抽样数据
答案:A
解析:大数据的一种表现形式为接近其总体的“所有数据”。
19.[单选题]下列关于分词的说法正确的是()
A)中文句子字之间没有空格,无法分词
B)一个句子的分词结果是唯一的
C)中文分词是将一系列无空格间隔字符串分割成一系列单词的过程
D)分词没有实际应用价
答案:C
解析:中文中字、句和段能通过明显的分界符来简单划界,所以A错。对一个句子,不同语料的分词标准是不一样的,它们往往做不到一致性的分割,所以B错。中文分词的应用十分广泛,如搜索引擎、机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,所以D错。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,中文分词是将一系列无空格间隔字符串分割成一系列单词的过程,所以C对,选C。
20.[单选题]设计为8层的卷积神经网络AlexNet网络成功使用(__)函数,其效果远远地超过了Sigmoid函数。
A)ReLU函数
B)sigmoid函数
C)tanh函数
D)sin函数
答案:A
解析:AlexNet网络用ReLU代替sigmoid,效果得到大幅提升。
21.[单选题]请把下划处的代码补充完整:______ into student (s_name) ______(’王大军’);
A)update, values
B)insert, value
C)insert, values
D)delete, lik
答案:C
解析:
22.[单选题]()是利用样本的实际资料计算统计量的取值,并以引来检验事先对总体某些数量特征的假设是否可信作为决策取舍依据的一种统计分析方法
A)假设检验
B)逻辑分析
C)方差分析
D)回归分
答案:A
解析:假设检验,又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。
23.[单选题]matplotlib中的axvspan函数作用是什么()。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。