第一章测试
1.以下哪些情景可以使用大数据分析与预测建模技术?
A:预测某移动运营商客户转移到竞争对手的可能性
B:预测电商网站某商品未来的销售量
C:统计某零售超市一个月内哪类牛奶的销量最大
D:保险公司的骗保分析
答案:ABD
2.有关大数据分析与预测的过程认识正确的是?
A:大数据分析与预测得到的结果需要通过检验样本的测试,甚至需要在现实中实验才能投入使用。
B:大数据分析与预测一般需要人的参与,只要把数据输入合适的算法就可以得到有用的结果。
C:大数据分析与预测的问题一般都是用户给定的,因此不需要与用户交流和调研。
D:A零售企业的客户行为数据分析得到的规律也可以直接用于B零售企业。
答案:A
3.有关数据质量的认识正确的是?
A:数据质量一般可以由机器自动完成,不需要数据分析人员参与。
B:有些机器学习算法具有比较强的抗噪型,因此不需要预处理也能得到有用的规律。
C:各种数据质量问题对机器学习算法的影响很大,因此需要充分预处理才能进入建模阶段。
D:数据预处理就是删除有问题的数据。
答案:C
4.下面有关机器学习正确的说法是?
A:在机器学习过程中,需要人的经验指导数据的选择、噪声的消除、合适算法的选择以及调参等工作。
B:机器学习可以从有限的样本数据中得到有用的规律,并能对新样本进行一定的泛化预测。
C:每种机器学习算法都有一定的使用范围,只能处理某类数据和问题。sql容易学吗
D:机器学习就是简单的统计分析。
答案:ABC
5.组织通过销售数据或洞察以创造新的收入来源,这属于大数据应用成熟度的哪一个阶段?
A:业务转型
B:业务优化
C:业务监控
D:数据货币化
答案:D
6.如果以药品B来代替药品A的使用,那么这个病人生存的几率有多大?这种分析属于
A:诊断性分析
B:规范性分析
C:预测性分析
D:描述性分析
答案:C
7.NoSQL数据库作为非关系型数据库,只能够用来存储非结构数据。
A:错
B:对
答案:A
8.根据患者的视网膜图像等相关医疗信息,使用机器学习算法进行建模,预测患者患糖尿病的可能性。这个任务需要以下使用哪一类机器学习算法?
A:无监督学习
B:统计分析
C:诊断性分析
D:监督学习
答案:D
9.大数据分析的预测建模任务主要包括哪几大类问题?
A:关联分析
B:分类
C:模式发现
D:回归
答案:ABD
10.下列哪些分析需要机器学习?
A:统计移动运营商的用户在某段时间对短信的使用数量
B:比较不同移动运营商用户对漫游业务的使用量
C:寻移动运营商用户对某类套餐使用的潜在客户
D:预测移动运营商用户未来使用的网络流量
答案:ACD
第二章测试
11.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?
A:频繁模式挖掘
B:分类和预测
C:数据预处理
D:数据流挖掘
答案:C
12.下面哪个步骤不属于数据预处理的过程?
A:数据清洗
B:数据转换
C:分类和预测
D:数据归约
答案:C
13.下面哪种不属于数据预处理的方法?
A:聚集
B:离散化
C:变量代换
D:估计遗漏值
答案:D
14.以下哪种方法不属于特征选择的标准方法
A:嵌入
B:包装
C:过滤
D:抽样
答案:D
15.下面不属于创建新属性的相关方法的是
A:特征提取
B:特征构造
C:特征修改
D:映射数据到新的空间
答案:C
16.数据清洗包括以下哪几个方面?
A:噪声数据平滑技术
B:按标准差进行的标准化
C:缺失数据处理方法
D:时间相关数据的处理
答案:ACD
17.以下哪几个是数据归约的策略?
A:数据压缩
B:维度归约
C:离散化和概念分层产生
D:数据立方体聚集
E:数值归约
答案:ABCDE
18.以下哪些是数据离散化技术?
A:饼图分析
B:基于熵的离散化
C:分箱技术
D:ChiMerge技术
答案:BCD
19.特征选择的目标有哪些?
A:提高数据挖掘模型的性能
B:提供更快、性价比更高的学习过程
C:更好地理解生成数据的基本过程
D:挖掘多个抽象层上的数据
答案:ABC
20.特征选择算法一般分为那几类?
A:特征排列算法
B:分箱技术
C:子集选择算法
D:基于熵的离散化
答案:AC
第三章测试
21.有关决策树的说法哪个是错误的?
A:可以转化为决策规则
B:对新样本起到分类预测的作用
C:决策树的深度越大越好
D:决策树的算法和神经网络的原理不一样
答案:C
22.有关决策树与特征工程的关系,以下说法错误的是?
A:决策树可以得到对分类重要的属性,因此可以作为分类特征获取的一种方法。
B:如果要了解影响签署合同快慢的主要因素,可以使用决策树算法。
C:决策树获得的特征可以作为其他算法(例如回归算法的自变量)输入的依据。
D:决策树获得的特征是区分不同类别的最优特征。
答案:D
23.下面有关支持向量机错误的说法是?
A:支持向量机既可以处理线性可分的问题,也可以处理非线性可分的问题。
B:对于小样本集,支持向量机的分类准确度可能优于其他对样本数量要求比较高的分类算法。
C:支持向量机是把高维的数据投影到低维的空间进行分类。
D:支持向量机一般处理两分类的问题。
答案:C
24.以下哪些不是贝叶斯网络的应用场景?
A:中文分词
B:机器故障诊断
C:根据客户消费行为对其进行分组
D:招聘人才选拔规则
答案:CD
25.下面有关线性判别分析错误的说法是哪个?
A:提高不同类样本的可分性。
B:线性变换可以使不同类别样本的距离加大。
C:线性判别分析中线性变换可以使同类样本的方差变大。
D:通过对原始的数据进行线性变换,使得不同类的样本尽量分开。
答案:C
26.下面有关随机森林的说法哪个是错误的?
A:每颗树都是从属性集随机抽取一定数目的属性作为候选的特征。
B:随机森林是一种集成算法,可以使用CART等基学习器提高分类的性能。
C:类似装袋法的样本抽样方法,保证每棵树的学习样本集的多样性。
D:随机森林训练后只需选择性能最好的树最为预测模型。
答案:D
27.如果发现决策树模型的检验结果达不到要求,可以执行下面哪些方法进行改进?
A:修改用户的需求。
B:采用多种算法组合。
C:补充或调整样本的选择,并加强样本的预处理。
D:对算法的选择以及参数的调整进行优化。
答案:BCD
28.以下哪个算法不是基于规则的分类器 ?
A:ID3
B:C5.0
C:C4.5
D:贝叶斯分类器
答案:D
29.如果从员工的日常表现数据预测其升职的可能性可以使用下面哪种机器学习方法?
A:关联分析
B:聚类分析
C:决策树类算法
D:线性回归分析
答案:C
30.以下哪个指标不能用于决策树的性能评价指标?
A:决策树规则的数目
B:召回率
C:准确率
D:ROC曲线下的面积AUC
答案:A
31.以下关于人工神经网络(ANN)的描述正确的说法是?
A:训练ANN是一个很耗时的过程
B:只能用于分类
C:不能确定输入属性的重要性
D:神经网络对训练数据中的噪声不敏感,因此数据质量可以差一些也没关系
答案:A

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。