python标准化使数组和为1_Python数据处理从零开始----第三
章(pandas)。。。
标准化,也称去均值和⽅差按⽐例缩放
数据集的 标准化 对scikit-learn中实现的⼤多数机器学习算法来说是 常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位⽅差),那么它们的表现⼒可能会较差。在实际情况中,我们经常忽略特征的分布形状,直接经过去均值来对某个特征进⾏中⼼化,再通过除以⾮常量特征(non-constant features)的标准差进⾏缩放。
例如,在机器学习算法的⽬标函数(例如SVM的RBF内核或线性模型的l1和l2正则化),许多学习算法中⽬标函数的基础都是假设所有的特征都是零均值并且具有同⼀阶数上的⽅差。如果某个特征的⽅差⽐其他特征⼤⼏个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。
函数 [scale]"sklearn.preprocessing.scale"为数组形状的数据集的标准化提供了⼀个快捷实
现:from sklearn import preprocessingimport numpy as np
X_train = np.array([[ 1., -1.,  2.],
[ 2.,  0.,  0.],
[ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)
X_scaled
Out[28]:
array([[ 0.        , -1.22474487,  1.33630621],
[ 1.22474487,  0.        , -0.26726124],
[-1.22474487,  1.22474487, -1.06904497]])
经过缩放后的数据具有零均值以及标准⽅差:an(axis=0)
Out[29]: array([0., 0., 0.])
X_scaled.std(axis=0)
Out[30]: array([1., 1., 1.])
预处理 模块还提供了⼀个实⽤类 StandardScaler ,它实现了转化器的API来计算训练集上的平均值和标准偏差,以便以后能够在测试集上重新应⽤相同的变换。因此,这个类适⽤于 sklearn.pipeline.Pipeline 的早期步
骤:from sklearn.preprocessing import StandardScaler
scaler = preprocessing.StandardScaler().fit(X_train)
scaler
Out[31]: StandardScaler(copy=True, with_mean=True, with_std=True)
Out[32]: array([1.        , 0.        , 0.33333333])
scaler.scale_
Out[33]: array([0.81649658, 0.81649658, 1.24721913])
Out[34]:
array([[ 0.        , -1.22474487,  1.33630621],
[ 1.22474487,  0.        , -0.26726124],
[-1.22474487,  1.22474487, -1.06904497]])
缩放类对象可以在新的数据上实现和训练集相同缩放操作:X_test = [[-1., 1., 0.]]
array([[-,  , -]])
你也可以通过在构造函数 :class:StandardScaler 中传⼊参数 with_mean=False` 或者``with_std=False 来取消中⼼化或缩放操作
将特征缩放⾄特定范围内
⼀种标准化是将特征缩放到给定的最⼩值和最⼤值之间,通常在零和⼀之间,或者也可以将每个特征的最⼤绝对值转换⾄单位⼤⼩。可以分
令数组全部的值为0
别使⽤ [MinMaxScaler] 和 [MaxAbsScaler] 实现。使⽤这种缩放的⽬的包括实现特征极⼩⽅差的鲁棒性以及在稀疏矩阵中保留零元素。
以下是⼀个将简单的数据矩阵缩放到[0, 1]的例⼦:X_train = np.array([[ 1., -1.,  2.],
...                    [ 2.,  0.,  0.],
...                    [ 0.,  1., -1.]])
...>>> min_max_scaler = preprocessing.MinMaxScaler()>>> X_train_minmax = min_max_scaler.fit_transform(X_train)>>> X_train_
array([[ 0.5      ,  0\.        ,  1\.        ],
[ 1\.        ,  0.5      ,  0.33333333],
[ 0\.        ,  1\.        ,  0\.        ]])
同样的转换实例可以被⽤与在训练过程中不可见的测试数据:实现和训练数据⼀致的缩放和移位操作:X_test = np.array([[ -3., -
1.,  4.]])>>> X_test_minmax = min_ansform(X_test)>>> X_test_minmax
array([[-1.5      ,  0\.        ,  1.66666667]])
可以检查缩放器(scaler)属性,来观察在训练集中学习到的转换操作的基本性
质:min_max_scaler.scale_                            array([ 0.5      ,  0.5      ,  ])
>>> min_max_scaler.min_                              array([ 0\.        ,  0.5      ,  ])
如果给 MinMaxScaler 提供⼀个明确的 feature_range=(min, max) ,完整的公式是:X_std = (X - X.min(axis=0)) / (X.max(axis=0) -X.min(axis=0))
X_scaled = X_std * (max - min) + min
类 MaxAbsScaler 的⼯作原理⾮常相似,但是它只通过除以每个特征的最⼤值将训练数据特征缩放⾄ [-
1, 1] 范围内,这就意味着,训练
数据应该是已经零中⼼化或者是稀疏数据。 例⼦::⽤先前例⼦的数据实现最⼤绝对值缩放操作。
以下是使⽤上例中数据运⽤这个缩放器的例⼦:X_train = np.array([[ 1., -1.,  2.],
...                    [ 2.,  0.,  0.],
...                    [ 0.,  1., -1.]])
...>>> max_abs_scaler = preprocessing.MaxAbsScaler()>>> X_train_maxabs = max_abs_scaler.fit_transform(X_train)>>> X_train_ 1\. ,  1\. ],
[ 1\. ,  0\. ,  0\. ],
[ 0\. ,  1\. , -0.5]])>>> X_test = np.array([[ -3., -
1.,  4.]])>>> X_test_maxabs = max_ansform(X_test)>>> X_test_maxabs
array([[-1.5, -1\. ,  2\. ]])>>> max_abs_scaler.scale_        array([ 2.,  1.,  2.])
在 [scale]模块中进⼀步提供了⽅便的功能。当你不想创建对象时,可以使⽤如 [minmax_scale]以及 [maxabs_scale].作者:夜神moon
打开App,阅读⼿记

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。