Python处理不平衡数据--688IT编程网

Python处理不平衡数据

所谓的不平衡数据集指的是数据集各个类别的样本量极不均衡。以⼆分类问题为例，假设正类的样本数量远⼤于负类的样本数量，通常情况下通常情况下把多数类样本的⽐例接近100:1这种情况下的数据称为不平衡数据。不平衡数据的学习即需要在分布不均匀的数据集中学习到有⽤的信息。

本⽂主要介绍从数据⾓度出发的不平衡数据集的处理⽅法以及对应的python库（imblearn）。

1.过采样

从少数类的样本中进⾏随机采样来增加新的样本，对应Python库中函数为RandomOverSampler：

from imblearn.over_sampling import RandomOverSampler

ROS = RandomOverSampler(random_state=0)

X_resampled, y_resampled = ROS.fit_sample(X, y)

2.⽋采样

与过采样相反，⽋采样是从多数类样本中随机选择少量样本，再合并原有少数类样本作为新的训练数据

集。

随机⽋采样有两种类型分别为有放回和⽆放回两种，⽆放回⽋采样在对多数类某样本被采样后不会再被重复采样，有放回采样则有可能。

对应Python库中函数为RandomUnderSampler，通过设置RandomUnderSampler中的replacement=True参数, 可以实现⾃助法(boostrap)抽样。

from imblearn.under_sampling import RandomUnderSampler

random pythonRUS = RandomUnderSampler(random_state=0)

X_resampled, y_resampled = RUS.fit_sample(X, y)

3.SMOTE采样

SMOTE算法的基本思想是对少数类样本进⾏分析并根据少数类样本⼈⼯合成新样本添加到数据集中，具体下图所⽰，算法流程如下：

1、对于少数类中每⼀个样本x，计算该点与少数类中其他样本点的距离，得到最近的k个近邻（即对少数类点进⾏KNN算法）。

2、根据样本不平衡⽐例设置⼀个采样⽐例以确定采样倍率，对于每⼀个少数类样本x，从其k近邻中随机选择若⼲个样本，假设选择的近邻为x'。

3、对于每⼀个随机选出的近邻x'，分别与原样本按照如下的公式构建新的样本：

x new=x+rand(0,1) ∗ (x′−x)

但是SMOTE算法缺点也⼗分明显：⼀⽅⾯是增加了类之间重叠的可能性（由于对每个少数类样本都⽣成新样本，因此容易发⽣⽣成样本重叠(Overlapping)的问题），

另⼀⽅⾯是⽣成⼀些没有提供有益信息的样本

对应Python库中函数为SMOTE：

from imblearn.over_sampling import SMOTE

X_resampled_smote, y_resampled_smote = SMOTE().fit_sample(X, y)

688IT编程网

Python处理不平衡数据

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Python处理不平衡数据

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式