大数据开发基础(试卷编号111)
1.[单选题]HBase为什么适用于海量数据存储?
A)支持列存表
B)集规模小
C)HDFS做底层存储
D)多列簇特性
答案:C
解析:
2.[单选题]马尔可夫随机场有一组(__),这是定义在变量子集上的非负实函数,主要用于定义概率分布函数。
A)损失函数
B)优化函数
C)激活函数
D)势函数
答案:D
解析:
3.[单选题]下列关于线性回归分析中的残差说法正确的是()。
A)残差均值总是为零
B)残差均值总是约等于零
C)残差均值总是大于零
D)以上答案都不正确
答案:A
解析:线性回归分析中,目标是残差最小化。残差平方和是关于参数的函数,为了求残差极小值,令残差关于参数的偏导数为零,会得到残差和为零,即残差均值为零。
4.[单选题]为了观察测试Y与X之间的线性关系,若X是连续变量,则使用()比较适合。
A)散点图
B)柱形图
C)直方图
D)以上答案都不正确
答案:A
解析:散点图反映了两个变量之间的相互关系,在测试Y与X之间的线性关系时,使用散点图最为直观。
5.[单选题]作为分布式消息队列,既有非常优秀的吞吐量,又有较高的可靠性和扩展性,同时接受Spark Streaming的请求,将流量日志按序发送给Spark Streaming集是 ()
A)Flume
B)Zookeeper
D)Sparkstreaming
答案:C
解析:
6.[单选题]下列声明游标的语法格式中,正确的是( ) 。--
A)DECLARE cursor_name CURSOR FOR select_statement
B)CURSOR cursor_name FOR select_statement
C)DECLARE cursor_name CURSOR OF select_statement
D)CURSOR cursor_name OF select_statement
答案:A
解析:
7.[单选题]()不是 HDFS 的守护进程。
A)SecondaryNameNode
B)DataNode
C)MRAppMaster/YarnChild
D)NameNode
答案:C
解析:NameNode 是HDFS集的主节点,DataNode是HDFS集的从节点,Secondary NameNode 是HDFS集启动的用来给NameNode 节点分担压力的角,这个三个服务进程会一直启动着。
MRAppMaster/YarnChild进程是只有在YARN 集运行了 MapReduce程序之后才会启动的程序。
8.[单选题]having, where, group by的正确执行顺序是( )。
A)having, where, group by
B)where, group by, having
C)where, having, group by
D)group by, having, where
答案:B
解析:
9.[单选题]YARN 的基于标准调度,是对下列选项中的哪个进行标签化?
A)AppMaster
B)ResourceManager
C)NodeManager
D)Container
答案:C
解析:
10.[单选题]关于OLAP和 OLTP的区别描述,不正确的是()。
A)OLAP主要是关于如何理解聚集的大量不同的数据,它与 OTAP应用程序不同
B)与OLAP 应用程序不同,OLTP 应用程序包含大量相对简单的事务
D)OLAP是以数据仓库为基础的,但其最终数据来源与OLTP 一样均来自底层的数据库系统,两者面对的用户是相同的
答案:C
解析:OLTP是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,记录即时的增、删、改、查,比如在银行存取一笔款,就是一个事务交易。OLAP即联机分析处理,是数据仓库的核心,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。
11.[单选题]下列哪项通常是集的最主要的性能瓶颈
A)CPU
B)网络
C)磁盘
D)内存
答案:C
解析:集的瓶颈提出多种看法,其中网络和磁盘io的争议比较大。这里需要说明的是网络是一种稀缺资源,而不是瓶颈。
集的最主要瓶颈是:磁盘。当我们面临集作战的时候,我们所希望的是即读即得。可是面对大数据,读取数据需要经过磁盘IO,这里可以把IO理解为水的管道。管道越大越强,我们对于T级的数据读取就越快。所以IO的好坏,直接影响了集对于数据的处理。
12.[单选题]下列关于hadoop的描述哪个是正确的:
A)Hadoop的图标是一个黄小鸭子;hbase应用案例
B)Hadoop是由韩国人研发的;
C)CDH是hadoop的其中一个发行版本;
D)所有的Hadoop发行版本都是免费的。
答案:C
解析:
13.[单选题]在MapReduce 中,哪个组件是用户不指定也不会有默认的( )。
A)Combiner
B)OutputFormat
C)Partitioner
D)InputFormat
答案:A
解析:
14.[单选题]下列选项中,不属于python特点的是 。()
A)面向对象
B)运行效率高
C)可移植性
D)免费和开源
15.[单选题]数据科学领域常用的工具之一---()语言是统计学家发明的语言。
A)Python
B)R
C)JAVA
D)C
答案:B
解析:
16.[单选题]执行后可以查看Python的版本的是
A)import sysprint(sys.Version)
B)import systemprint(system.version)
C)import systemprint(system.Version)
D)import sysprint(sys.version)
答案:D
解析:
17.[单选题]k近邻算法在()的情况下效果较好。
A)样本较多但典型性不好
B)样本较少但典型性好
C)样本呈团状分布
D)样本呈链状分布
答案:B
解析:k近邻算法主要依靠的是周围的点,因此如果样本过多,则难以区分,典型性好的容易区分。样本都是呈团状分布,KNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。
18.[单选题]np.swapaxes()函数返回的是数组的(__)。
A)副本
B)视图
C)子集
D)切片
答案:B
解析:
19.[单选题]假如table中有一条记录,字段列coll值为空,下面( )条件会将此条记录查询出来。
A)coll ="
B)coll !="
C)coll is null
D)coll is not null
20.[单选题]下列说法错误的是( )。
A)当目标函数是凸函数时,梯度下降算法的解一般就是全局最优解
B)进行 PCA 降维时,需要计算协方差矩阵
C)沿负梯度的方向一定是最优的方向
D)利用拉格朗日函数能解带约束的优化问题
答案:C
解析:沿负梯度的方向是函数值减少最快的方向但不一定就是最优方向。
21.[单选题]1997年5月,著名的“人机大战”,最终计算机以3.5比2.5的总比分将世界国际象棋棋王卡斯帕罗夫击败,这台计算机被称为()
A)深蓝
B)IBM
C)深思
D)蓝天
答案:A
解析:
22.[单选题]对参数进行L2 正则,是机器学习常用的防止过拟合的方法。对参数做L2 正则时,()是对参数本身做先验分布假设。
A)高斯分布
B)拉普拉斯分布
C)泊松分布
D)均匀分布
答案:A
解析:L2 正则假设参数的先验分布是 Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
23.[单选题]当作业调度根据自己的调度算法调度该作业时,会根据数据划分信息为每个划分创建一个( )任务。
A)Reduce
B)Shuffle
C)Map
D)Partition
答案:C
解析:
24.[单选题]Python 代码中 Params['font.sans-serif'] = ['SimHei'] 的作用是( )。
A)设置图表中文显示的字体
B)设置图表图例的位置

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。