大数据工具导论
第一章
2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和( )能力的数据集。
A.计算
B.应用
C.分析
D.访问
用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和( )。
A.Vainly
B.Variety
C.Vagary
D.Valley
大数据分析四个方面的工作主要是:数据分类、( )、关联规则挖掘和时间序列预测。
A.数据清洗
B.数据聚类
C.数据计算
D.数据统计
新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。
A.错
B.对
目前的大数据处理技术只能处理结构化数据。
A.错
B.对
第二章
我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是( )。
A.xls
B.mdf
C.dbf
D.mdb
)
大多数日志文件的后缀名是( )。
A.csv
B.log
C.txt
D.xml
本课程重点介绍的weka软件的专有文件格式是( )。
A.MongoDB B.value
C.ARFFD.key map
数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和( )。
A.排他性
B.专业性
C.一致性
D.共享性
八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个( )来作为采集的目标。
A.网页地址
B.用户名
C.电话号码
D.关键词
八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是( )。
A.gif
B.otd
C.jpg
D.png
Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。
A.错
B.对
Excel不能导入txt或csv格式的文件。
A.错
B.对
八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。
A.对
B.错
八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。
A.对
第三章
使用DBSCAN算法对鸢尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2, minPoints参数设置为5,忽略class属性,那么将形成( )个簇。
A. 1
B. 3
C. 2
D. 4
使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略play属性,从结果中可知,下列选项中,( )是错误的。
A. 第四个簇的实例数为4
B. 第四个簇的先验概率是0.14
C. 模型的最大似然估计值是-7.18
D. 这组数据用算法迭代15次
使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,( )是错误。
A. 聚合为3个簇,分别有7,3,4个实例
B. 平方和误差为8.928
C. 这组数据用算法迭代四次
D. 产生了三个中心点
使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知( )。
A. LinearRegression的平均方根误差比M5P的平均方根误差大
B. LinearRegression的标准误差比M5P的标准误差小
C. LinearRegression的相对误差比M5P的相对误差小
D. LinearRegression的平均绝对误差比M5P的平均绝对误差小
删去cpu.arff数据文件中的CACH属性后,使用M5P分类器构建方案,在结果中,到达LM2的实例数有( )个。
A. 23
B. 165
C. 30
D. 21
根据J48分类器训练inal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity =high;windy=TRUE时,分类的结果是( )。
A. 没有结果
B. Yes
C. No
D. 无法分类
根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是( )。
A. Iris-virginica
B. Iris-setosa
C. 无法分类
D. Iris-versicolor
关于Weka离散化说明正确的是( )。
A. 离散化包括无监督离散化和有监督离散化
B. 离散化是将数值属性转换为字符串型属性
C. 有监督离散化有两种等宽和等频方法
D. 等宽离散化是使实例分布均匀的
以下( )不是Weka的数据类型。
A. decimal
B. string
C. numeric
D. nominal
关于Weka的文件类型描述错误的是( )。
A. Weka处理的数据集类似于关系数据库横行实例,竖行属性
B. arff是ASCII文件,可以用Word等文本编辑器打开查看
C. @relation 定义数据集名称,@data之后呈现实例,每一行就是一个实例
D. Weka可以打开文件格式有.arff、.csv、.xlsx
以下属于关联分析的是( )。
A. 股票趋势建模
B. 自动判断鸢尾花类别
C. CPU性能预测
D. 购物篮分析
大数据时代的到来,使我们无法人为地去发现数据中的奥妙,与此同时,我们更应该注重数据中的相关关系,而不是因果关系。其中,数据之间的相关关系可以通过以下( )算法直接挖掘。
A. K-means
B. C4.5
C. Bayes Network
D. Apriori
某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的( )问题。
A. 分类
B. 关联规则发现
C. 聚类
D. 自然语言处理
在进行自动选择属性时,必须设立两个对象,其中确定使用什么方法为每个属性子集分配一
个评估值的对象是下面的( )。
A. 搜索方法
B. 元分类器
C. 规则挖掘
D. 属性评估器
以下属于属性空间的搜索方法的是( )。
A. GainRatioAttributeEval
B. PrincipalComponents
C. BestFirst
D. SymmetricalUncertAttributeEval
在weka软件探索者界面中,利用Visualize标签页通过更改各个参数来进行数据集的可视化属性设置后,需要单击以下( )按钮,所有更改才会生效。
A. Update
B. SubSample
C. Select Attribute
D. Fast scrolling
给定关联规则AB,意味着:若A发生,B也会发生。
A.对
B.错
支持度是衡量关联规则重要性的一个指标。
A.错
B.对
Ranker方法既可以用于单个属性评估器,又可以用于属性子集评估器。
A.对
B.错
利用weka软件进行数据可视化时,用户可以选择类别属性对数据点着,如果类别属性是标称型,则显示为彩条。
A.错
B.对
第四章
贝叶斯网络中的节点代表( )。
A.随机变量
B.变量
C.随机过程
D.随机函数
贝叶斯网络中,节点需给出概率分布描述,对于离散型随机变量而言,可以用( )的形式表示。
A. 均匀分布
B.条件概率表
C.条件概率密度函数
D.正态分布
贝叶斯网络中节点之间的边代表( )。
A.组合关系
B.随机结果
C.概率因果
D.随机关系
贝叶斯网络保存的文件格式是( )。
A.XML BIF
B.XLS
C.DOCX
D. TXT
下面( )不是反向传播神经网络的结构。
A.隐含层
B.输出层
C.输入层
D.计算层
神经网络中的节点代表( )。
A.激励变量
B.随机变量
C.激励函数
D.随机函数
下列( )不是常见的激励函数。
A.Sigmoid函数
B.正弦函数
C.阈值函数
D.线性函数
字符串截取工具在贝叶斯网络编辑界面时,如果节点的名称没法完全显示,需要从( )菜单项进行调整。
A.Tools|SetData
B.View|Zoom Out
C.Tools|Layout
D.View|Zoom In
WEKA中选择神经网络分类器操作时,应该选择( )。
A.默认的分类器
B.functions条目下的SGD分类器
C.functions条目下的MultilayerPerceptron分类器
D.rules条目下的PART
下面关于Package Manager安装后的目录说明不正确的是( )。
A.doc子目录存放API文档
B.sample-data子目录存放数据集文件
C.lib子目录存放包所需要的说明文件
D.src子目录存放源代码文件
第五章
Tableau是一款定位于数据可视化敏捷开发和实现()展现工具。Tableau 连续第 6 年在 Gartner 分析和商业智能魔力象限中蝉联领导者殊荣。
A.商务智能
B.商业统计
C.商业行为
D.商务计算
以下()不是Tableau的数据类型?
A.Decimal
B.Boolean
C.String
D.Date
【单选题】 (10分)
Tableau可以用来实现交互的、()的分析和仪表板应用,从而帮助我们快速地认识和理解数据。
A:连续性
B:离散性
C:智能化
D:可视化
4、下列说法错误的是()。
A:Tableau通过内存数据引擎,可以直接查询外部数据库同时动态的从数据仓库抽取实时数据,极大的提高了数据访问和查询效率
B:用户仅需要通过轻点鼠标和简单拖放就可以迅速创建出智能、精美、直观和具有强交互性的报表和仪表盘
C:Tableau允许从多个数据源访问数据,包括带分隔符的文本文件、Excel文件、SQL数据库、Oracle数据库和多维数据库等
D:Tableau不提供应用编程接口
5、度量往往是()字段,度量是我们的指标。度量常常是连续的,连续的字段在图表中形成轴.将其拖放到功能区时,Tableau默认会进行()。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论