时间序列预测基础教程系列(13)_归⼀化和标准化的区别与
⽅法(Python)
导读:
气象python零基础入门教程数据的预处理⽅法有两种,分别是归⼀化和标准化
javaapi是什么意思什么时候⽤归⼀化?什么时候⽤标准化?
(1)如果对输出结果范围有要求,⽤归⼀化。
(2)如果数据较为稳定,不存在极端的最⼤最⼩值,⽤归⼀化。
(3)如果数据存在异常值和较多噪⾳,⽤标准化,可以间接通过中⼼化避免异常值和极端值的影响。
正⽂:
完成本教程后,您将了解:
使⽤标准化的数据规范化和期望的局限性。
需要什么参数以及如何⼿动计算标准化和标准化值。
如何使⽤Python中的scikit-learn来标准化和标准化您的时间序列数据
该数据集描述了澳⼤利亚墨尔本市10年(1981-1990)的最低⽇常温度。
单位为摄⽒度,有3,650个观测值。数据来源被称为澳⼤利亚⽓象局。
下⾯是前5⾏数据的⽰例,包括标题⾏。
"Date","Temperatures"
"1981-01-01",20.7
"1981-01-02",17.9
"1981-01-03",18.8
"1981-01-04",14.6
"1981-01-05",15.8
下⾯是从数据市场获取的整个数据集的图表。
最低每⽇温度
。
本教程假定数据集位于当前⼯作⽬录中,⽂件名为 “ daily-minimum-temperature-in-me.csv”。
注意:下载的⽂件包含⼀些问号(“?”)字符,在使⽤数据集之前必须删除这些字符。在⽂本编辑器中打开⽂件并删除“?”字符。同时删除⽂件中的任何页脚信息。
归⼀化时间序列数据
归⼀化是对原始范围内的数据进⾏重新缩放,以使所有值都在0和1的范围内。
当您的时间序列数据具有不同⽐例的输⼊值时,归⼀化可能是有⽤的,甚⾄在某些机器学习算法中也是必需的。对于算法,例如k-最近邻,它使⽤距离计算和线性回归和⼈⼯神经⽹络可能需要归⼀化。重量输⼊值。
统计函数countif高级标准化要求您知道或能够准确估计最⼩和最⼤可观察值。您可以从可⽤数据中估算这些值。如果您的时间序列趋势向上或向下,估计这些预期值可能会很困难,并且规范化可能不是⽤于解决问题的最佳⽅法。
值的规范化如下:
y = (x - min) / (max - min)
其中最⼩值和最⼤值与值x被归⼀化有关。
例如,对于温度数据,我们可以将最⼩和最⼤可观察值猜测为30和-10,这些值⼤⼤超过和低估。然后我们可以将18.8之类的任何值标准化,如下所⽰:
y = (x - min) / (max - min)
y = (18.8 - -10) / (30 - -10)
y = 28.8 / 40
y = 0.72
您可以看到,如果提供的x值超出最⼩值和最⼤值的范围,则结果值将不在0和1的范围内。您可以在进⾏预测之前检查这些观察值并删除它们来⾃数据集或将它们限制为预定义的最⼤值或最⼩值。
您可以使⽤scikit-learn对象规范化数据集。
使⽤MinMaxScaler和其他重新缩放技术的良好实践⽤法如下:
1. 使⽤可⽤的训练数据安装定标器。对于归⼀化,这意味着训练数据将⽤于估计最⼩和最⼤可观察值。这是通过调⽤fit()函数完成
的,
2. 将⽐例应⽤于训练数据。这意味着您可以使⽤标准化数据来训练模型。这是通过调⽤transform()函数完成的
3. 将⽐例应⽤于未来的数据。这意味着您可以在将来准备要预测的新数据。
如果需要,可以反转变换。这对于将预测转换回其原始⽐例以进⾏报告或绘图⾮常有⽤。这可以通过调⽤inverse_transform()函数来完成。
以下是标准化每⽇最低温度数据集的⽰例。
缩放器要求将数据作为⾏和列的矩阵提供。加载的时间序列数据作为Pandas 系列加载。然后必须将其重新整形为具有3,650⾏的⼀列矩阵。
然后使⽤重新整形的数据集来拟合缩放器,对数据集进⾏归⼀化,然后反转归⼀化变换以再次显⽰原始值。
# Normalize time series data
from pandas import Series
from sklearn.preprocessing import MinMaxScaler
# load the dataset and print the first 5 rows
series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)
print(series.head())
# 准备归⼀化数据
values = series.values
values = shape((len(values), 1))
# 定义缩放范围(0,1)
scaler = MinMaxScaler(feature_range=(0, 1))
jquery html()scaler = scaler.fit(values)
print('Min: %f, Max: %f' % (scaler.data_min_, scaler.data_max_))
# 归⼀化数据集并打印前5⾏
normalized = ansform(values)
for i in range(5):
print(normalized[i])
# 逆变换并打印前5⾏
inversed = scaler.inverse_transform(normalized)
for i in range(5):
print(inversed[i])
运⾏该⽰例将从已加载的数据集中打印前5⾏,以其标准化形式显⽰相同的5个值,然后使⽤逆变换将值返回其原始⽐例。
我们还可以看到数据集的最⼩值和最⼤值分别为0和26.3。
Date
1981-01-01 20.7
1981-01-02 17.9
1981-01-03 18.8
1981-01-04 14.6
1981-01-05 15.8
Name: Temp, dtype: float64
Min: 0.000000, Max: 26.300000
[ 0.78707224]
[ 0.68060837]
[ 0.7148289]
[ 0.55513308]
[ 0.60076046]
[ 20.7]
[ 17.9]
[ 18.8]
[ 14.6]
[ 15.8]
还有另⼀种类型的重新缩放对于超出预期值范围的新值更加稳健; 这称为标准化。我们接下来会看⼀下。
excel vba入门教程标准化时间序列数据
标准化数据集涉及重新调整值的分布,以便观察值的平均值为0,标准差为1。
这可以被认为是减去平均值或使数据居中。
与标准化⼀样,当您的时间序列数据具有不同⽐例的输⼊值时,标准化可能是有⽤的,甚⾄在某些机器学习算法中也是必需的。
标准化假定您的观察结果符合⾼斯分布(钟形曲线),具有良好的平均值和标准偏差。如果不满⾜此
期望,您仍然可以标准化时间序列数据,但可能⽆法获得可靠的结果。
这包括⽀持向量机,线性和逻辑回归等算法,以及其他假设或使⽤⾼斯数据提⾼性能的算法。
标准化要求您知道或能够准确估计可观察值的均值和标准差。您可以从训练数据中估算这些值。
值标准化如下:
y = (x - mean) / standard_deviation
凡平均值的计算公式为:
mean = sum(x) / count(x)
⽽standard_deviation计算如下:
standard_deviation = sqrt( sum( (x - mean)^2 ) / count(x))
例如,我们可以绘制最低每⽇温度数据集的直⽅图,如下所⽰:
from pandas import Series
from matplotlib import pyplot
series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)
series.hist()
pyplot.show()
运⾏代码会给出以下图表,该图表显⽰数据集的⾼斯分布,如标准化所假设的那样。
最低每⽇温度直⽅图
我们可以猜测平均温度为10,标准偏差约为5.使⽤这些值,我们可以将数据集中的第⼀个值标准化为20.7,如下所⽰:
y = (x - mean) / standard_deviation
y = (20.7 - 10) / 5
y = (10.7) / 5
y = 2.14
数据集的均值和标准差估计对新数据的稳健性可能⽐最⼩值和最⼤值更强。
您可以使⽤scikit-learn对象来标准化数据集。
以下是标准化每⽇最低温度数据集的⽰例。
# Standardize time series data
from pandas import Series
from sklearn.preprocessing import StandardScaler
from math import sqrt
# load the dataset and print the first 5 rows
series = Series.from_csv('daily-minimum-temperatures-in-me.csv', header=0)
print(series.head())
# 准备数据
values = series.values
values = shape((len(values), 1))
# 定义标准化模型
sentence的scaler = StandardScaler()
scaler = scaler.fit(values)
print('Mean: %f, StandardDeviation: %f' % (an_, sqrt(scaler.var_)))
# 开始标准化,打印前五⾏
normalized = ansform(values)
for i in range(5):
print(normalized[i])
# 逆标准化数据
inversed = scaler.inverse_transform(normalized)
for i in range(5):
print(inversed[i])
运⾏该⽰例将打印数据集的前5⾏,打印标准化的相同值,然后以原始⽐例打印值。我们可以看到估计的平均值和标准偏差分别为11.1和4.0。
Date
1981-01-01 20.7
1981-01-02 17.9
1981-01-03 18.8
1981-01-04 14.6
1981-01-05 15.8
Name: Temp, dtype: float64
Mean: 11.177753, StandardDeviation: 4.071279
[ 2.33888328]
[ 1.65113873]
[ 1.87219948]
[ 0.84058266]
[ 1.13533032]
[ 20.7]
[ 17.9]
[ 18.8]
[ 14.6]
[ 15.8]
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论