通径分析及其简单实现
搜集变量资料是农业科学研究经常采用的方法,如:搜集作物的产量与其构成因素穗数、粒数、粒重等资料,研究这些变量的目的想知道这些变量之间的关系,许多人往往采用简单回归和相关或多元回归分析。但是,多元回归分析虽然在一定程度上能反映各个变量的真实关系,然而多元回归在分析偏回归系数时带有单位,使自变量对依变量的效应不能直接进行比较,从而不能比较各自变量的相对重要性。要解决这个问题,进行通径分析(即为通径系数的分析)是一个比较好的选择。然而令人感到棘手的是,面对繁杂的计算公式往往感到无从下手,下面从通径系数的概念入手,引出通径系数的求算方法,并利用SAS完成通径分析全过程。
1. 通径和通径系数的概念
1.1 通径
  设依变量y和两个自变量x1、x2之间有如下关系:
                                            x1
                                  y
                                              x2
                                    图1  通径图
在图1 中“”中表示变量间存在因果关系,箭头方向是原因到结果,称为通径。“    ”表示变量间存在相关关系,称为相关线,x1→y,x2→y为直接通径,由于x1,x2存在相关关系,又产生了两条间接通径,一条是x1是通过x2而作用于Y的通径,记作x1→x2→Y,一条是x2是通过x1而作用于y的通径,记作x2→x1→y。这种情况可以推广到i个自变量,并记直接通径为i→y(i=1,2,3····m),间接通径为i→j→y(i=1,2,3····m,ij ) ,但也可统一记作i→j→y,当i=j时为直接通径,ij时为间接通径。
1.2 通径系数
表示各条通径对于改变依变量的相对重要性的统计数就叫通径系数, 记作Pi→j→Y 或简写为PijY通径系数的定义可以由偏回归系数导出。
例如水稻单株产量y(kg)与x1穗数)、x2单穗粒数)、x3粒重)间存在着线性回归关系。其回归关系为:y=b0+b1x1+b2x2+b3x3,此式中b0为常数,b1b2b3分别表示y对x1,y对x2, y对x3的偏回归系数,偏回归系数是带有单位的,如b1、b2的单位分别为:kg/穗,kg/粒。所以不便于偏回归系数进行直接比较。所以常常将其标准化之后以便于消去单位,进行直接比较。下面进行回归方程的标准化:
y=b0+b1x1+b1x2+b1x3 ······(1)
由(1)对y求平均数得:
y’=b0+b1x’1+b1x’2+b1x’3 ······(2)
用(1)式减(2)得:
y- y’= b1(x1- x’1)+ b2(x2- x2’)+ b3(x3- x3’) ······(3)
由(3)式除σy得:
      (y- y’)/ σy = b1(x1- x1’)/σy + b2(x2- x2’) /σy+ b3(x3- x3’)/σy ······(4)
将(4)式做相应得恒等变换:
(y-y’)/σy= b1x1y)[(x1- x1’)/σx1]+ b2x2y)[(x2- x2’)/σx2]+ b3(σx3y)[(x3- x3’)/σx3] ······(5)
其中σy,σx1,σx2,σx3 分别为y,x1 ,x2,x3的标准差,并令:∆y=(y-y’)/σy,∆x1= (x1- x1’)/σx1,∆x2 = (x2- x2’)/σx2,∆x3 = (x3- x3’)/σx3 ,∆y、∆x1、∆x2、∆x3即为变量y、x1、x2、x3的标准化,将(5)式
改写成下式:
∆y=b1x1y)∙ ∆x1+ b2x2y) ∙ ∆x2 + b3(σx3y) ∙ ∆x3
则b1∙(σx1y),b2∙(σx2y),b3∙(σx3y)为变量标准化后的偏回归系数,它是不带单位的相对数,这样就可以用以估计∆x1,∆x2,∆x3对∆y直接影响效应的大小,并比较其重要性。
因此通径系数的定义:
    若相关变量y与x1、x2 ······xk间存在着直线回归关系,其回归方程为: y=b0+b1x1+b1x2+ ····
··+bkxk,则变量标准化后的各偏回归系数b1∙(σx1y),b2∙(σx2y),···,bk∙(σxky)分别为自变量x1 x2 ··· xk对依变量的直接通径系数,即:P1y= b1∙(σx1y),P2y= b2∙(σx2y), ···, Pky= bk∙(σxky),简言之,通径系数是变量标准化的各偏回归系数,用以表示相关变量因果关系的一个统计量。
2. 通径系数的类型
  通径系数包括直接通径系数和间接通径系数两种类型。
2.1 直接通径系数
对于回归方程y= b0+b1x1+b2x2+b3x3+…+bkxk,则有x1对y的直接通径系数为P1y=b1*δx1/δy, x2对y的直接通径系数为P2y=b1*δx2/δy,xk对y的接通径系数为Pky=b1*δxk/δy,其中δx1、δx2、δy分别为x1 x2 xk的方差。
2.2  间接通径系数
由许多自变量影响着依变量,但是它们的重要性是不同的,其中一个自变量可能通过其它自
变量对依变量起作用,这时可用间接通径系数来表示它。如xi通过xj 对y起作用,间接通径系数为:rijPjyrij表示xi和xj之间的相关系数,Pjy表示xj对y的直接通径系数。
2.3 直接、间接通径系数和相关系数的关系
  依据回归系数和通径系数的定义以及最小二乘法原理可得到:rij = Piy + ∑rijPjy(ij,i、j=1,2,3….K)        
即:一个自变量对因变量的直接通径系数和间接通径系数的总和等于这个自变量与因变量之间的相关系数。例如:对多元回归方程y=bo+b1x1+b2x2+b3x3, 有r1y=P1y+r12P2y+r13P3y, r2y=P2y+r21P1y+r23P3y , r3y=P3y+r3P1y+r32P2y。并可以得到表1:
表1  直接通径系数和间接通径系数表
variable怎么记
X1
X2
X3
Y
X1
X2
X3
r11P1y
r21P1y
r31P1y
r12P2y
r22P2y
r32P2y
r13P3y
r23P3y
r33P3y
r1y
r2y
r3y
注:斜体部分为直接通径系数,其它为间接通径系数。
3. 通径系数的性质
通径系数有以下几个性质:1)一个具有k个自变量的反应系统,共有m个直接通径系数和m(m-1)个间接通径系数。2)进行通径分析的基础是Y和Xi都具有线性关系,而且Y可以被线性分解。3)通径系数是具有向量的。如:Xi和Y不可以互换,即:PiyPyi。它的取值在实数范围内可以大于1或小于-1。4)通径系数是变量标准化的偏回归系数,它能够表示变量间的因果关系,故具有回归系数性质。5)通径系数不带具体单位,因而又具有相关系数的性质,表示原因与结果的相关关系。所以通径系数是介于回归系数和相关系数之间的一种统计量。6)通径系数可以表示某个自变量的相对重要性。
4. 应用SAS进行通径分析的具体过程
SAS是美国使用的最为广泛的三大著名统计分析软件(SAS, SPSS和SYSTAT)之一,是目前国际上最为流行的一种大型的统计分析系统,被誉为统计分析的标准软件。对于通径系数,如采用其它常规的统计方法,往往颇费周折。如采用SAS软件,往往比较简单,较快的完成分析过程。下面通过一个实例,介绍应用SAS进行通径分析的基本作法。
例:测定"丰产3号"小麦的每株穗数(X1),每穗结实小穗数(X2,主茎),百粒重(X3,克),和每株籽粒产量(Y,克)的关系,得结果于表1,试求Y依Xi的最优线性回归方程,并作通径分析.
表1  "丰产3号"小麦的每株穗数(X1)、每穗结实小穗数(X2)、
百粒重(X3)、株高(X4)和每株籽粒产量(Y)的关系
X1
X2
X3
y
10
9
10
13
10
10
8
10
10
10
10
8
6
8
9
23
20
22
21
22
23
23
24
20
21
23
21
23
21
22
3.6
3.6
3.7
3.7
3.6
3.5
3.3
3.4
3.4
3.4
3.9
3.5
3.2
3.7
3.6
15.7
14.5
17.5
22.5
15.5
16.9
8.6
17.0
13.7
13.4
20.3
10.2
7.4
11.6
12.3
4.1  直接通径系数的求法
在sas的程序窗口中输入以下程序:
DM "log;clear;output;clear;";
ods rtf file='D:\f';
PROC IMPORT OUT= jing
            DATAFILE= "D:\sas2003\tongjing.xls"
            DBMS=EXCEL2000 REPLACE;
    SHEET="Sheet1$";
    GETNAMES=YES;
RUN;
proc reg corr;
  model y=x1-x3/selection=stepwise sls=.05 sle=.05 STB;
run;quit;
ods rtf close;
此段程序中,new表示临时数据集;proc reg corr 语句表示调用reg和corr程序,进行回归分析和相关分析;model语句表示选用逐步回归法进行分析,sls= sle=定义选入和剔除自变量的限制水平(0.05),STB给出直接通径系数。
运行可以得到以下部分结果:
                                            SAS 系统              11:02 Tuesday, June 4, 2002  1
                                        The REG Procedure
                                            Correlation
    Variable      Label                X1                X2                X3                y
    X1            X1              1.0000          -0.1357            0.5007            0.8973

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。