REG过程(回归过程)
REG过程是一个通用的回归过程,它采用最小二乘方法拟合线性回归模型,还提供多种“最佳”回归模型的方法,是一个应用最广泛的回归过程。
§1 REG过程简介
一、REG过程的功能
设考察的指标(或称因变量,响应变量)为,影响这些指标的因素(或称自变量,回归变量)为。已知这些变量的次观测数据组成的一个SAS数据集。REG过程可以完成以下几方面的计算:
(1) 利用具有多项选择的MODEL语句来建立用户需要的线性回归模型;
(2) 提供九种选择“最佳”回归模型的方法;
(3) 允许采用交互方式修改模型及用于拟合这个模型的数据;
(4) 可建立线性约束回归模型;
(5) 检验线性假设和多变量假设;
(6) 生成原始数据和一些统计量的散点图;对散点图还有“着”,加亮功能;
(7) 产生偏回归杠杆图,并进行共线性诊断,影响诊断;
(8) 可以输出预测值、残差、标准残差、置信区间的上下限和影响统计量等;并把它们存储到一个SAS数据集里;
(9) 可以使用和的相关阵和离差阵作为输入数据;
(10) 可以把离差阵(叉积阵)存贮到一个输出SAS数据集里,以便将来使用;
(11) 在6.11版本,REG过程完成岭回归和不完全的主成分分析(IPC);
(12) 在6.11版本,PROC REG语句可使用选项GRAPHICS,它使得你能够要求PLOT语句用高分辩率图形设备绘图。
二、选择最优回归模型方法
设和的次观测数据为满足线性回归模型:
.
利用矩阵符号可简记为
.
因考察的个自变量对的作用有大有小,且自变量之间一般存在相关性。为了从与的所有可能回归模型中选出拟合这组观测数据的最优回归子集,REG过程提供了九种选择回归模型的方法,它们通过MODEL语句中的选项selection=来规定。下面介绍这些方法及其在选项SELECTION=中用于识别这些方法的关键词。
1. 全回归模型(NONE)
weight可不可数没有对回归变量进行筛选,建立Y与全部自变量的回归模型。这是很多回归分析使用的方法。当省略选项SELECTION=时,表示建立全回归模型。
2.向前法或逐步引入法(FORWARD)
向前选择法的初始模型中没有变量。对每个自变量,向前法计算如果这个自变量包含在模型中它对模型贡献大小的F统计量,并将这些F统计量相应的值与SLENTRY=的值(用户在MODEL语句中规定的引入时的显著水平。如果没有规定,即缺省时,则用0.50比较.如果所有自变量对应的F统计量的显著概率(值)都大于这个值(表示所有自变量对因变量的贡献都不显著),向前选择过程结束。否则,就把具有最大F值的自变量引人模型。然后对未引入模型的自变量再计算它们的的F统计量,重复上述计算步骤,变量逐个被加到模型中,直到没有变量其F值相应的值大于SLENTRY=的值。使用向前选择法,变量一旦选人模型,就不会被剔除。
3.向后法或逐步剔除法(BACKWARD)
向后删除法开始对包含所有自变量的模型计算F统计量, 然后从这个模型中逐个删除变量,直到在模型中的所有变量产生的F统计量在这个MODEL语句里规定的选项SLSTAY=的值(如果缺省,则用0.10)水平上是显著的。在每一步,删除对模型贡献最小的变量。
4.逐步筛选法(STEPWISE)
逐步法是向前选择法的修正,和向前选择法的区别在于引入模型中的变量有可能被删除。像向前选择法一样,变量被逐个引入到模型中,而且对引入的变量其F统计量在SLENTRY=的水平上必须是显著的。引入一个变量之后,逐步法还要检验所有已经包含在模型中的变量,并删除在SLSTAY=的水平上不显著的一切变量。仅当经过检验并把所有不显著的变量删除后,才考虑是否再引入新变量。当在模型外的所有变量在SLENTRY=的水平上都不显著,而在模型内的任一个变量的F统计量在SLSTAY=的水平上都是显著时,逐步筛选过程停止。另外,若刚被删除的变量又被引人模型时,逐步筛选过程也停止。
5.最大增量法(MAXR)
最大增量法不是确定唯一的一个模型。而是寻“最优”一个变量模型,“最优”两个变量模型等等,但它对每种变量个数,并不能保证到具有最大的模型。
MAXR方法首先寻具有最大的单变量模型,然后引入产生最大增量的另一变量,得到两个变量的模型后,把模型里的这些变量与不在模型里的每个变量进行比较。每次比较,MAXR方法决定是否删除一个变量并用其它变量替换来增加。在比较所有可能替换之后,MAXR进行替换使得增加最大。然后再进行比较,这个过程一直继续直到MAXR不能到替换使增加。于是得到的两个变量模型就认为是用这个方法能够到的“最优”两个变量模型。然后又引入变量到这模型中,重复比较和替换过程来寻“最优”三个变量模型等等。
STEPWISE方法和MAXR法的区别是MAXR法在进行替换之前计算了所有替换的情况。而STEPWISE法在剔除了“最坏”的变量后,有可能还没有顾上考虑如何引入“最好”的变量筛选过程就完成了。一般MARX法需要比STEPWISE法更多的计算时间。
6.最小增量法(MINR)
MINR法类似于MAXR法,但替换是选择产生最小增量的那一个变量。对给定变量个数的模型,MAXR和MINR法一般都得到相同的“最优”模型,但MINR法对每种变量个数考虑更多的模型。
7.选择法(RSQUARE)
RSQUARE法用于寻某些自变量的子集,这些子集在给定的样本中用线性回归可以最佳地预测因变量。用户可以规定出现在子集中自变量的最大和最小个数及被选择的每种大小子集的个数。RSQUARE法可以有效地计算所有可能回归子集并在每种子集大小里按递减的次序输出这些模型。为了比较不同变量个数的子集,该方法还提供一些有用的统计量,这些统计量以及回归系数的估计可以直接打印或输出到一个SAS数据集里。
用RSQUARE方法选择的回归子集模型对于给定的样本按准则是最优的,但他们对于这个样本所抽取的总体或者你想要做预测的其它样本而言未必是最优的。如果一个子集模型是根据最大值或者用模型选择的其它一般准则建立的,在模型事先给定的假设下对那个模型计算的所有回归统计量,包括用REG计算的所有统计量都是有偏的。
RSQUARE法对于研究模型的建立是一个有效的工具,但没有统计方法能够用来建立“真的”模型。实际模型的建立要求提供大量关于预测理论及关于这些模型的函数形式。
RSQUARE法和其它模型选择方法的区别在于,它总能够对所考虑变量的每种变量个数到具有最大的模型,而其它选择方法不能保证这一点。RSQUARE法比其它选择方法需要更多的计算时间,因此在考虑很多自变量的情况下,最好使用如STEPWISE等其它选择方法。
8.修正选择法(ADJRSQ)
该方法类似于RSQUARE法,只是对于选择模型使用的准则为修正统计量。修正统计量定义为
ADJRSQ=
其中是用来拟合模型的观测个数,是模型中参数的个数(包括截距项),而=1(当模型包含截距(常数项)时),否则为0。
9.Mallows的选择法(CP)
这个方法类似于ADJRSQ,只是模型选择的准则使用Mallow提出的统计量。统计量定义为
其中是全回归模型的MSE(均方误差),是包含常数项(如果存在)有个参数的模型的误差平方和。
如果画对的图形,Mallows建议选择最接近的那个模型。
§2 语句说明
在REG过程中有许多语句及有用的选项供用户使用。不过在很多分析计算中用户只须使用它们中少数几个及预置的选项,故在大多数情况下,用REG过程处理变量间的相关关系是很方便的。另外,REG过程提供的众多语句及选项可以满足用户的各种特殊要求。在REG过程中可以使用的语句如下:
PROC REG <options>;(必需的语句)
<label>:MODEL dependents=<regressors> </options>;(拟合模型所必需的语句;它是可交互使用的语句)
BY variables;
FREQ variable;
ID variable;
VAR variables:
WEIGHT variable;
(这五个语句必须出现在第一个RUN语句之前)
ADD variables;
DELETE variables;
<label>:MTEST<equation,…,equation> </options>;
OUTPUT OUT=SAS—data—set keyword=names <…keyword—names>;
PAINT <condition∣ ALLOBS> </options>∣<STATUS ∣ UNDO>;
PLOT <yvariable*xvariable><=symbol> <…yvariable*xvariable><=symbol> </options>;
PRINT <options><ANOVA> <MODELDATA>;
REFIT;
RESTRICT equation,…,equation;
REWEIGH <condition ∣ ALLOBS> </options>∣<STATUS ∣UNDO>;
<label>:TEST equation<,…,equation> </option>;
(这些语句可出现在MODEL语句后面的任何地方,而且能够交互地使用)
上述列表中,用角括号(<>)括起来的项表示是可选择的元素。用竖条(∣)分开的这些项表示可以从这一组互不相容的项中选择一项。
PROC REG语句是必需的。如果用户只想使用PROC REG语句中适当的选项,可以不用MODEL语句,但必须同时使用VAR语句。在REG过程中可以使用多个MODEL语句。另外,在一个MODEL语句之后,可以有几个MTEST,OUTPUT,PAINT,PLOT,PRINT,RESTRICT和TEST语句跟随着。而ADD,DELETE和REWEIGHT语句用来交互地改变回归模型和用于拟合模型的数据。ADD,DELETE,OUTPT,PLOT,PRINT,RESTRCT和TEST语
句隐含着拟合模型。对模型的改变从这些语句打印输出中可以反映出来。REFIT语句明显地指出重新拟合模型,它常跟在一个没有隐含拟合模型的REWEIGHT语句的后面来要求重新拟合模型。BY,FREG,ID,VAR和WEIGHT语句是选的语句,对于整个PROC REG只能规定一次,并且必须出现在第一个RUN 语句之前。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论