样本均值的标准化变量
1. Z-Score标准化
对数据系列中的每一个数据点作减去均值并除以方差的操作,使得处理后的数据近似符合(0,1) 的标准正态分布:
优点:
1) 计算相对简单,在计算机编程软件中操作方便;
2) 能够消除量级为数据分析带来的不便,不受数据量级的影响,保证了数据间的可比性.
缺点:
正则化点变量以体积平均量来表示1) 计算时需要得到总体的均值及标准差,在数据较多时难以实现,大多数情况下用样本均值及标准差代替,此举会导致分析结果与真实结果之间会存在差异;
2) 极大程度上改变了数据的原始意义,使得只能比较数据之间的关系,导致这种标准化方法的现实意义需要在比较中实现;
3) 对数据的相关性有要求,只有在数据大致符合正态分布时才能得到最佳结果.
适用范围:适用于数据系列中最大值和最小值未知,有超出取值范围的离数据的情况。或者是数据分布非常离散的情况.
2. 0-1标准化
对数据系列作线性变换,使得处理过后数据均落在[0,1]区间内:
优点:
1) 无论原始数据是正值还是负值,经过0-1标准化之后各个观察值的数值变化范围都满足条件,并且正指标、逆指标均可转化为正向指标,使其作用方向一致,易于比较;
2) 能够消除变异量纲和变异范围的影响,确保数据是在同一量纲下进行比较.
缺点:
1) 在新数据加入后,可能导致最大值和最小值发生变化,就需要重新定义标准化变量,计算量大幅增加;
2) 标准化之后只能比较数据的分布情况,适用场景较为单一.
适用范围:0-1标准化适用于需要将数据简单地变换映射到某一区间中进行比较,观测数据的分布情况.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论