【项⽬实战】Python基于孤⽴森林算法(IsolationForest)实
现数据异常值检。。。
说明:这是⼀个机器学习实战项⽬(附带数据+代码+⽂档+代码讲解),如需数据+代码+⽂档+代码讲解可以直接到⽂章最后获取。
1.项⽬背景
孤⽴森林是基于Ensemble的快速异常检测⽅法,具有线性时间复杂度和⾼精准度,是符合⼤数据处理要求的state-of-the-art算法。孤⽴森林算法适⽤于连续数据的异常检测,将异常定义为“容易被孤⽴的离点”,可以理解为分布稀疏且离密度⾼的体较远的点。⽤统计学来解释,在数据空间⾥⾯,分布稀疏的区域表⽰数据发⽣在此区域的概率很低,因⽽可以认为落在这些区域⾥的数据是异常的。
孤⽴森林最早来源于2008年发表的⼀篇论⽂《Isolation Forest》,该论⽂由莫纳什⼤学的 Fei Tony Liu、Kai Ming Ting 和南京⼤学的周志华合作完成的。孤⽴森林算法的思想是通过不断地分割数据集,从⽽把异常点给孤⽴出来。分割数据集的依据是反复随机选取样本特征,不断地分割数据集直到每个样本点都是孤⽴的。在此情况下,异常点因为具有不同或者特殊的特征值,因此异常点的路径通常很短,也会⽐较早被分离出来。
2.数据获取
本次建模数据来源于⽹络(本项⽬撰写⼈整理⽽成),数据项统计如下:
数据组成:训练数据1460条、81个特征(38个数值特征和43个分类特征)
数据详情如下(部分展⽰):
3.数据预处理
3.1 ⽤Pandas⼯具查看数据形状
使⽤Pandas⼯具的shape ()⽅法查看数据的形状:
关键代码:
常量元素分类3.2缺失值数据填充
使⽤Pandas⼯具的fillna ()⽅法⽤0填充缺失的数据,关键代码:
3.3⽣产数据集的特征列表
使⽤Pandas⼯具的columns属性来⽣成数据集的特征列表:
关键代码:
4.异常数据检测
使⽤sklearn⼯具中的IsolationForest(算法)来进⾏数据集中异常数据的检测。
4.1建模
模型参数如下:
4.2拟合与预测python入门教程网盘
应⽤fit()⽅法进⾏拟合,应⽤predict()进⾏预测,预测值分为1和-1,1为正常值,-1为异常值,那么在后续的深度神经⽹络模型应⽤中
应⽤fit()⽅法进⾏拟合,应⽤predict()进⾏预测,预测值分为1和-1,1为正常值,-1为异常值,那么在后续的深度神经⽹络模型应⽤中将会丢弃掉异常值的数据。检测结果如下:
如何删除git本地仓库直方图均衡化图片关键代码如下:
4.3正常值结果展⽰
使⽤Pandas⼯具的head()⽅法来展⽰正常值数据的前10⾏:
关键代码如下:
5.特征⼯程
html文字边框代码5.1数据归⼀化
使⽤sklearn⼯具MinMaxScaler()⽅法来进⾏数据的⽆量纲化,即数据的归⼀化,归⼀化后的数据如下图:
关键代码:
5.2 建⽴特征数据和标签数据
SalePrice为标签数据,除SalePrice之外的为特征数据。关键代码如下:
5.3数据集拆分
训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:
6.构建深度神经⽹络模型
主要使⽤Keras⼯具的Sequential()⽅法构建序惯模型,然后添加Dense层,⽤于⽬标回归。
6.1建模
关键代码如下:
7.模型评估
7.1评估指标及结果
评估指标主要包括均⽅误差等等。
从上表可以看出,损失值较⼩,深度神经⽹络模型效果较好。
关键代码如下:
7.3 真实值与预测值⽐对图
从上图可以看到,真实值和预测值波动基本⼀致,说明除去异常值之后的深度神经⽹络模型效果较好。
expand的形容词8.结论与展望
综上所述,使⽤了孤⽴森林算法对房价数据进⾏异常检测。实验结果表明,该算法可以有效检测出房价数据中存在的异常数据。然后把异常数据去除,来构建深度神经⽹络模型,模型效果较好。可⽤于⽇常⽣活中进⾏建模预测,以提⾼⽣产价值和效能。
测试集数据预测结果如下:
本次机器学习项⽬实战所需的资料,项⽬资源如下:
⽹盘如果失效,可以添加博主:zy10178083
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论