大数据分析与应用期末复习
一、选择题。
1、大数据作为一种数据集合,当我们使用这个概念的时候,实际包含有哪几层含义?(ABC)
A、数据很大
B、构成复杂
C、变化很快
D、蕴含大价值
2、建立大数据需要设计一个什么样的大型系统?(ABCD)
A、能够把应用放到合适的平台上
B、能够开发出相应应用
C、能够处理数据
D、能够存储数据
3、医疗领域如何利用大数据?(ACD)
A、临床决策支持
B、个性化医疗
C、社保资金安全
D、用户行为分析
4、物联网在大田作物生产中的应用体现在一下哪些方面?(ABCD)
A、农作物病虫害预测
B、农作物精准生产控制
C、农田环境监测
D、农作物长势苗情监测
5、大数据处理流程可以概括为以下哪几步?(ABCD)
A、挖掘
B、采集
C、统计和分析
D、导入和预处理
6、大数据对人才能力的要求是(ABD)
A、业务能力正则化解决什么问题
B、数学统计能力
C、逻辑思维能力
D、IT技术能力
7、大数据的主要特征表现为(ABCD)
A、数据类型多
B、处理速度快
C、数据容量大
D、商业价值高
8、大数据系统体系建设规划包括以下哪些内容?(ABCD)
A、采数据
B、搭平台
C、编代码
D、建模型
9、运用大数据进行大治理要做到(ABCD)
A、用数据决策
B、用数据管理
C、用数据说话
D、用数据创新
10、大数据的来源包括(ABCD)
A、互联网数据
B、实时数据
C、探测数据
D、传感器数据
二、简答题。
1、描述大数据5V特性。
卷(Volume)-卷表示卷,即以高速率增长的数据量,即以PB为单位的数据量。速度(Velocity)–速度是数据增长的速度。社交媒体在增长数据的速度中起着重要作用。
多样性(Variety)–多样性是指不同的数据类型,即各种数据格式,例如文本,音频,视频等。
准确性(Veracity)–准确性是指可用数据的不确定性。由于大量数据带来不完整和不一致,因此会出现准确性。
价值(Value)–价值是指将数据转化为价值。通过将访问的大数据转化为价值,企业可以产生收入。
2、大数据分析如何有助于业务增长?
大数据分析对于企业来说已经变得非常重要。它可以帮助企业与众不同,并增加收入。通过预测分析,大数据分析为企业提供了定制的建议。此外,大数据分析使企业能够根据客户的需求和偏好推出新产品。这些因素使企业获得更多收入,因此公司正在使用大数据分析。
3、利用任何一种编程语言,实现1+2+3+ (100)
Matlab
sum=0;
for i=1:100
sum=sum+i;
end
Python
sum=0;
for number in range(1,101);
sum=sum+number
print(sum)
4.如何理解过拟合和欠拟合?
过拟合和欠拟合一样,都是数据挖掘的基本概念。过拟合指的是数据训练的太好,在实际的测试环境中可能产生错误。欠拟合则是指机器学习得不充分,数据样本太少,不足以让机器形成自我认知。
5、为什么说朴素贝叶斯算法是“朴素”的?
朴素贝叶斯算法是一种简单但强大的分类算法,之所以成为朴素贝叶斯,是因为它假设每个输入变量是独立的。这是一个强硬的假设,实际情况并不一定,但是这项技术对于绝大不分的复杂问题仍然非常有效。
6、简单描述决策树算法的优点和不足。
优点:
1)运算速度快。训练决策树的成本和数据点的数量为对数关系。
2)可以同时处理连续变量和离散变量。其他的工具常常只能分析一种变量。3)利于理解和解释,便于可视化。对于在模型中观察到的现象,我们很容易用
逻辑分析进行解释。
4)可以使用统计检验来验证模型结果,可以检验模型的可靠性。
5)即使它的假设与实际上产生数据的真实模型不符合,也能有很好的效果。缺点:
1)决策树模型容易出现过拟合现象,使得模型的泛化能力很低。
2)决策树的稳定性较低。对数据集进行很小的改变就可能导致训练出完全不同的树。
3)决策树的计算结果为局部最优,而非全局最优。
4)决策树会受到样本不平衡的影响。
7、朴素贝叶斯模型的优点和不足。
优点
1)算法逻辑简单,易于实现。
2)分类过程中时空开销小。
3)在属性相关性较小时,朴素贝叶斯性能最为良好。
缺点:
实际上朴素贝叶斯模型并非比其他分类方法具有最小的误差率,因为朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好。
8、简述K-均值算法的优缺点。
优点
1)容易理解,聚类效果不错,虽然是局部最优,但往往局部最优就够了;2)处理大数据集的时候,该算法可以保证较好的伸缩性;
3)当簇近似高斯分布的时候,效果非常不错;
4)算法复杂度低。
缺点
1)K值需要人为设定,不同K值得到的结果不一样;
2)对初始的簇中心敏感,不同选取方式会得到不同结果;
3)对异常值敏感;
4)样本只能归为一类,不适合多分类任务;
5)不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类。
9、逻辑回归模型的优缺点。
优点:
1)最简单的机器学习算法:逻辑回归是超级容易实现的监督机器学习算法之一。之所以如此,是因为与其他方法相比,该算法没有提供高计算能力,这使其适用于机器学习领域的分类。
2)易于更新。与其他方法不同,逻辑算法允许用户轻松更新模型以获取/反映新数据。在逻辑回归中,数据的更新主要使用随机梯度下降来完成。
3)校准良好的输出:这种方法产生的概率是校准良好的。这使其比仅将最终分类作为结果的其他模型或方法更可靠。
4)不易过拟合:在低维数据集中,逻辑回归不易过拟合。但是,它可能在高维中过拟合,这可以通过使用称为正则化的技术来控制。
5)更准确:它为许多简单的数据集提供了比使用任何其他方法时更准确的结果。然而,当数据集具有线性可分特征时,它表现良好。
6)易于扩展:逻辑回归可以轻松扩展到多个类别和自然概率。
缺点
1)过拟合:高维数据集导致模型过拟合,导致测试集上的结果不准确。正则化技术用于抑制过拟合缺陷。但是,非常高的正则化可能会导致模型欠拟合,从而导致结果不准确。
2)并非所有问题都可以使用这种方法解决:非线性问题无法使用逻辑回归技术解决。因此,将这些非线性问题转换为线性问题可能会很费时间,而且会浪费时间。
3)复杂关系的问题:由于逻辑回归不如神经网络等其他算法强大,它可能难以捕捉复杂的关系。
3)需要大量的观察:这种技术通常用于观察数量高于所用特征的情况。否则,当观察次数较少时,可能会导致过拟合。
4)高数据维护:在逻辑回归中,由于数据准备繁琐,数据维护更高。这是由数据缩放和标准化带来的。
10、线性回归模型的优缺点。
优点
1)善于获取数据集中的线性关系;
2)适用于在已有了一些预先定义好的变量并且需要一个简单的预测模型的情况下使用;
3)训练速度和预测速度较快;
4)在小数据集上表现很好;
5)结果可解释,并且易于说明;
6)当新增数据时,易于更新模型;
缺点
1)不适用于非线性数据;
2)预测精确度较低;
3)可能会出现过度拟合。
三、案例分析:
1、利用逻辑回归方法判断客户流失问题。根据下表训练数据
判断
是否流失?(其中:0表示未流失,1表示流失)
2、根据下表数据,分别计算属性为泽、纹理、触感的分割基尼系数或分割信息熵。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。