大数据开发基础(习题卷52)
第1部分:单项选择题,共54题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下程序输出的结果是( )。(提示:ord(:”a”)==97)list_demo =
[1,2,3,4,5,'a','b']print(list_demo[1],list_demo[5])
A)1,5
B)2,a
C)1,97
D)2,97
答案:B
解析:
2.[单选题]修改数据库表结构用以下哪一项( )
A)UPDATE
B)CREATE
C)UPDATED
D)ALTER
答案:D
解析:
3.[单选题]概率图模型中最常用的采样技术是马尔科夫链蒙特卡洛 (MCMC)方法,以下关于其方法流程有如下内容,1.设法构造一条马尔科夫链,使其收敛至平稳分布恰为待估计参数的后验分布;2. 通过马尔科夫链产生符合后验分布的样本;3. 利用估计结果构造马尔科夫链;
4. 对样本进行估计;请选择正确的排序:
A)1,2,3,4
B)4,3,1,2
C)3,1,2,4
D)1,2,4
答案:D
解析:
4.[单选题]以下关于Hive和关系数据库的区别描述错误的是( )
A)Hive的查询语言是HQL,关系型数据库的查询语言是SQL
B)Hive的数据格式是用户定义,关系型数据库的数据格式是系统决定
C)Hive可扩展性高,关系型数据库可扩展性低
D)Hive的数据规模小,关系型数据库的数据规模大
答案:D
解析:
5.[单选题]调用自定义函数使用( )。--
A)CALL
B)LOAD
C)CREATE
D)SELECT
答案:D
解析:
6.[单选题]以下选项中哪个不属于数据预处理的方法()。
C)数据变换
D)数据统计
答案:D
解析:数据统计并非为数据预处理的常见内容。
hbase属于什么类型数据库7.[单选题]云主机管理的资源,不包括( )
A)vCPU
B)内存
C)显示器
D)存储
答案:C
解析:
8.[单选题]构造了一个词表:{1.“小明” 2.“喜欢” 3.“踢” 4.“看” 5.“足球” 6.“篮球” 7.“电影”},利用上述词表的索引号,文档{小明喜欢踢足球}可以用一个7维向量表示[( )]。
A)1 1 0 1 0 0 1
B)1 1 1 1 1 1 1
C)1 1 1 1 1 0 0
D)1 1 1 0 1 0 0
答案:D
解析:
9.[单选题]x **= 2等效于( )。
A)x = x * 2
B)x = x * 2 * 2
C)x = x ** 2
D)以上都不对
答案:C
解析:
10.[单选题]SDK是消费者在调用API时,需要在请求Header头中添加身份认证信息,而这个操 作比较繁琐,故我们为使用者提供了SDK,简化用户操作。目前华为SDK支持:( )种语言的支持。
A)7
B)8
C)9
D)10
答案:C
解析:
11.[单选题]给出如下代码:DictColor = {"seashell":"海贝","gold":"金","pink":"粉红","brown":"棕", "purple":"紫","tomato":"西红柿"}以下选项中能输出“海贝”的是
A)print(DictColor.keys())
B)print(DictColor["海贝"])
C)print(DictColor.values())
D)print(DictColor["seashell"])
答案:D
解析:
12.[单选题]RegionServer打开一个Region的时候会创建一个相应的( )对象
C)RegionServer
D)Server
答案:B
解析:
13.[单选题]大数据计算服务提供了大数据的存储和计算服务,非常适合应用于大数据分析的领域。以下说法中错误的是:( )。
A)可以实现大型互联网企业的数据仓库和BI分析
B)提供了便捷的分析处理海量数据的手段,用户可以不必关心分布式计算细节,从而达到分析大数据的目的
C)可以支持实时OLAP分析
D)可以基于历史数据,进行用户特征和兴趣挖掘
答案:C
解析:
14.[单选题]成N个训练样本集;②将N个训练样本集分别做决策树,生成N棵决策树:③将N棵决策树随机构成随机森林
;④未来根据预测样本气候环境、设备属性、设备工况进行随机森林决策投票,得出针对该预测样本最优的决策树进行运算并计算出最终结果模型算法构建步骤合理的顺序是()
A)①②⑤④
B)①③②④
C)④①②③
D)④②①③
答案:A
解析:
15.[单选题]假设在卷积神经网络的第一层中有 5 个卷积核,每个卷积核尺寸为 7×7,具有零填充且步幅为 1,该层的输入图片的维度是 224×224×3,那么该层输出的维度是 ( )。
A)217×217×3
B)217×217×8
C)218×218×5
D)220×220×7
答案:C
解析:如果原始图片尺寸为 n×n,lter 尺寸为 f×f,则卷积后的图片尺寸为(n-f+1)
×(n-f+1),f 一般为奇数。若考虑存在填充和步幅,用 s 表示 stride 长度,p 表示 padding长度,如果原始图片尺寸为 n×n,lter 尺寸为 f×f,则卷积后的图片尺寸为 [(n+2p-f)/ s+1]×[(n+2p-f)/s+1](中括号内向下取整)。此例中,n=224,p=0,f=7,s=1,因此,该层输出的尺寸为 218×218. 输出的第三个维度由滤波器的个数决定,即为 5。
16.[单选题]下列哪项通常是集的最主要的性能瓶颈
A)CPU
B)网络
C)磁盘
D)内存
答案:C
解析:集的瓶颈提出多种看法,其中网络和磁盘io的争议比较大。这里需要说明的是网络是一种稀缺资源,而不是瓶颈。
集的最主要瓶颈是:磁盘。当我们面临集作战的时候,我们所希望的是即读即得。可是面对大数据,读取数据需要经过磁盘IO,这里可以把IO理解为水的管道。管道越大越强,我们对于T级的数据读取就越快。所以IO的好坏,直接影响了集对于数据的处理。
17.[单选题]在 Zookeeper 和Yarn 的协同工作中,当 Active ResourceManager 产生故障时,Standby ResourceManager 会从以下哪些目录中获取 Application 相关信息?
A)metastore
B)Statestore
C)Storeage
D)Warehouse
答案:B
解析:
18.[单选题]下面对范数规则化描述错误的是(__)。
A)L0是指向量中0的元素的个数
B)L1范数是指向量中各个元素绝对值之和
C)L2范数向量元素绝对值的平方和再开平方
D)L0是指向量中非0的元素的个数
答案:A
解析:
19.[单选题]下列选项哪一个不属于HIVE的工作内容?
A)表结构元数据管理
B)HQL语句命令解析
C)分布式文件底层数据管理
D)数据结构以及函数的定义
答案:C
解析:
20.[单选题]启动 HDFS 上的垃圾回收机制只需要配置两个参数:一个是 fs.trash.checkpoint.interval,另外一个是fs.trash.interval,若是 fs.trash.interval的值设置为0,则表示()
A)表示垃圾检查点之间的分钟数为0分钟
B)表示和fs.trash.checkpoint.interval的值相等
C)表示自动开启垃圾回收功能
D)表示禁用垃圾回收功能
答案:D
解析:
21.[单选题]( )采用概率模型来表达聚类原型
A)K 均值算法
B)学习向量量化
C)高斯混合聚类
D)密度聚类
答案:C
解析:
22.[单选题]( )用于将关系型数据库或者其他结构化的数据导入到Hadoop的生态系统中。
A)Oozie
B)Flume
C)Sqoop
D)Hue
答案:C
解析:
23.[单选题]层次型、网状型、关系型数据库划分原则是( )
A)记录长度
B)文件的大小
C)联系的复杂程度
D)数据之间的联系
答案:D
解析:
24.[单选题]根据《泛在电力物联网2019年建设方案》,项目计划的制定应按照( )思路,优化调整。同时,依据建设方案,按照“继承发展、精准投资”原则,按专项立项程序合理安排2019年相关项目计划和资金投入。
A)“建运一体、常态运营、持续迭代”
B)"续并缓停"
C)“分类统筹、分批安排、联合试点”
D)“可信互联、精准防护、安全互动、智能防御”
答案:B
解析:
25.[单选题]离散程度的测度值愈大,则()。
A)映变量值愈分散,算术平均数代表性愈差
B)映变量值愈集中,算术平均数代表性愈差
C)映变量值愈分散,算术平均数代表性愈好
D)映变量值愈集中,算术平均数代表性愈好
答案:A
解析:离散程度的测度值愈大,则映变量值愈分散,算术平均数代表性愈差。
26.[单选题]针对每行数据内容为”Timestamp Url”的数据文件,在用JobConf对象conf设置
conf.setInputFormat(WhichInputFormat.class)来读取这个文件时,WhichInputFormat应该为以下的
A)TextInputFormat
B)KeyValueTextInputFormat
C)SequenceFileInputFormat
D)NLineInputFormat
答案:B
解析:四项主要的InputFormat类。KeyValueTextInputFormat以每行第一个分隔符为界,分隔符前为key,之后为value,默认制表符为\t
27.[单选题]()是基于规则的分类器。
A)C4.5
B)KNN
C)Naive Bayes
D)ANN
答案:A
解析:基于规则的分类器有决策树、随机森林、Aprior,C4.5属于决策树算法。
28.[单选题]在概率图模型中,(__)模型是结构最简单的动态贝叶斯网,主要用于时序数据建模。
A)马尔可夫随机场
B)隐马尔可夫模型
C)条件随机场
D)逆误差传播
答案:B
解析:
29.[单选题]关于Python循环结构,以下选项中描述错误的是

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。