【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常...--688IT编程网

【项⽬实战】Python基于孤⽴森林算法（IsolationForest）实

现数据异常值检。。。

说明：这是⼀个机器学习实战项⽬（附带数据+代码+⽂档+代码讲解），如需数据+代码+⽂档+代码讲解可以直接到⽂章最后获取。

1.项⽬背景

孤⽴森林是基于Ensemble的快速异常检测⽅法，具有线性时间复杂度和⾼精准度，是符合⼤数据处理要求的state-of-the-art算法。孤⽴森林算法适⽤于连续数据的异常检测，将异常定义为“容易被孤⽴的离点”，可以理解为分布稀疏且离密度⾼的体较远的点。⽤统计学来解释，在数据空间⾥⾯，分布稀疏的区域表⽰数据发⽣在此区域的概率很低，因⽽可以认为落在这些区域⾥的数据是异常的。

孤⽴森林最早来源于2008年发表的⼀篇论⽂《Isolation Forest》，该论⽂由莫纳什⼤学的 Fei Tony Liu、Kai Ming Ting 和南京⼤学的周志华合作完成的。孤⽴森林算法的思想是通过不断地分割数据集，从⽽把异常点给孤⽴出来。分割数据集的依据是反复随机选取样本特征，不断地分割数据集直到每个样本点都是孤⽴的。在此情况下，异常点因为具有不同或者特殊的特征值，因此异常点的路径通常很短，也会⽐较早被分离出来。

2.数据获取

本次建模数据来源于⽹络(本项⽬撰写⼈整理⽽成)，数据项统计如下：

数据组成：训练数据1460条、81个特征(38个数值特征和43个分类特征)

数据详情如下(部分展⽰)：

3.数据预处理

3.1 ⽤Pandas⼯具查看数据形状

使⽤Pandas⼯具的shape ()⽅法查看数据的形状：

关键代码：

常量元素分类

3.2缺失值数据填充

使⽤Pandas⼯具的fillna ()⽅法⽤0填充缺失的数据，关键代码：

3.3⽣产数据集的特征列表

使⽤Pandas⼯具的columns属性来⽣成数据集的特征列表：

关键代码：

4.异常数据检测

使⽤sklearn⼯具中的IsolationForest(算法)来进⾏数据集中异常数据的检测。

4.1建模

模型参数如下：

4.2拟合与预测python入门教程网盘

应⽤fit()⽅法进⾏拟合，应⽤predict()进⾏预测，预测值分为1和-1,1为正常值，-1为异常值，那么在后续的深度神经⽹络模型应⽤中

应⽤fit()⽅法进⾏拟合，应⽤predict()进⾏预测，预测值分为1和-1,1为正常值，-1为异常值，那么在后续的深度神经⽹络模型应⽤中将会丢弃掉异常值的数据。检测结果如下：

如何删除git本地仓库

直方图均衡化图片关键代码如下：

4.3正常值结果展⽰

使⽤Pandas⼯具的head()⽅法来展⽰正常值数据的前10⾏：

关键代码如下：

5.特征⼯程

html文字边框代码

5.1数据归⼀化

使⽤sklearn⼯具MinMaxScaler()⽅法来进⾏数据的⽆量纲化，即数据的归⼀化，归⼀化后的数据如下图：

关键代码：

5.2 建⽴特征数据和标签数据

SalePrice为标签数据，除SalePrice之外的为特征数据。关键代码如下：

5.3数据集拆分

训练集拆分，分为训练集和验证集，70%训练集和30%验证集。关键代码如下：

6.构建深度神经⽹络模型

主要使⽤Keras⼯具的Sequential()⽅法构建序惯模型，然后添加Dense层，⽤于⽬标回归。

6.1建模

关键代码如下：

7.模型评估

7.1评估指标及结果

评估指标主要包括均⽅误差等等。

从上表可以看出，损失值较⼩，深度神经⽹络模型效果较好。

关键代码如下：

7.3 真实值与预测值⽐对图

从上图可以看到，真实值和预测值波动基本⼀致，说明除去异常值之后的深度神经⽹络模型效果较好。

expand的形容词

8.结论与展望

综上所述，使⽤了孤⽴森林算法对房价数据进⾏异常检测。实验结果表明，该算法可以有效检测出房价数据中存在的异常数据。然后把异常数据去除，来构建深度神经⽹络模型，模型效果较好。可⽤于⽇常⽣活中进⾏建模预测，以提⾼⽣产价值和效能。

测试集数据预测结果如下：

本次机器学习项⽬实战所需的资料，项⽬资源如下：

⽹盘如果失效，可以添加博主：zy10178083

688IT编程网

【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常...

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常...

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式