python实现几种归一化方法(NormalizationMethod)--688IT编程网

python实现⼏种归⼀化⽅法（NormalizationMethod）

数据归⼀化问题是数据挖掘中特征向量表达时的重要问题，当不同的特征成列在⼀起的时候，由于特征本⾝表达⽅式的原因⽽导致在绝对数值上的⼩数据被⼤数据“吃掉”的情况，这个时候我们需要做的就是对抽取出来的features vector进⾏归⼀化处理，以保证每个特征被分类器平等对待。下⾯我描述⼏种常见的Normalization Method，并提供相应的python实现（其实很简单）：

1、(0,1)标准化：

这是最简单也是最容易想到的⽅法，通过遍历feature vector⾥的每⼀个数据，将Max和Min的记录下来，并通过Max-Min作为基数（即Min=0，Max=1）进⾏数据的归⼀化处理：

LaTex：{x}_{normalization}=\frac{x-Min}{Max-Min}

Python实现：

def MaxMinNormalization(x,Max,Min):

x = (x - Min) / (Max - Min);

return x;

⼤⼩的⽅法直接⽤np.max()和np.min()就⾏了，尽量不要⽤python内建的max()和min()，除⾮你喜欢⽤List管理数字。

2、Z-score标准化：

这种⽅法给予原始数据的均值（mean）和标准差（standard deviation）进⾏数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1，这⾥的关键在于复合标准正态分布，个⼈认为在⼀定程度上改变了特征的分布，关于使⽤经验上欢迎讨论，我对这种标准化不是⾮常地熟悉，转化函数为：

LaTex：{x}_{normalization}=\frac{x-\mu }{\sigma }

Python实现：正则化归一化

def Z_ScoreNormalization(x,mu,sigma):

x = (x - mu) / sigma;

return x;

这⾥⼀样，mu（即均值）⽤np.average()，sigma（即标准差）⽤np.std()即可。

3、Sigmoid函数

Sigmoid函数是⼀个具有S形曲线的函数，是良好的阈值函数，在(0, 0.5)处中⼼对称，在(0, 0.5)附近有⽐较⼤的斜率，⽽当数据趋向于正⽆穷和负⽆穷的时候，映射出来的值就会⽆限趋向于1和0，是个⼈⾮常喜欢的“归⼀化⽅法”，之所以打引号是因为我觉得Sigmoid函数在阈值分割上也有很不错的表现，根据公式的改变，就可以改变分割阈值，这⾥作为归⼀化⽅法，我们只考虑(0, 0.5)作为分割阈值的点的情况：

LaTex：{x}_{normalization}=\frac{1}{1+{e}^{-x}}

Python实现：

def sigmoid(X,useStatus):

if useStatus:

return 1.0 / (1 + np.exp(-float(X)));

else:

return float(X);

这⾥useStatus管理是否使⽤sigmoid的状态，⽅便调试使⽤。

以上就是本⽂的全部内容，希望对⼤家的学习有所帮助，也希望⼤家多多⽀持。

688IT编程网

python实现几种归一化方法(NormalizationMethod)

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

python实现几种归一化方法(NormalizationMethod)

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式