结构方程模型下非正态数据的处理*安徽师范大学体育学院(241000)方敏黄正峰
结构方程模型(SE M)的多变量正态分布假定观察变量来源于一个多元正态(J MVN)的总体。在这种前提下,最大似然法(m ax i m um like lihood,ML)方法给出的参数估计无偏、一致、渐近有效。如果抽样数据非正态分布,整体模型拟合的V2值会膨胀,个别参数值的标准误估计偏小,导致该参数估计值达到统计上的显著水平,接纳实际上没有意义的参数;TLI或CFI等拟合度指标出现低估现象112。这意味着,当数据违背J M VN分布假定时,研究者更有可能拒绝实际上构建很好的模型,或者认为个别参数估计不为0,增大了统计学推断的I型错误,对模型修正得到包含冗余参数的模型。因此,非正态数据的处理是应用结构方程模型技术时需要注意的问题。
处理非正态数据的常用方法
对于非正态数据的处理,如果观察指标属于连续变量,研究者可以选用不受正态分布限制的ADF/WLS 估计法,或使用Sca led V2和Robust标准误,或使用Bootstrapping后的校正标准误,还可以运用统计方法对非正态分布的变量进行数据转换。相对于连续数据,如果测量变量为类别或次序性时,研究者可选用M pl u s的CVM(catego rical variables m ode,l类别变量模式)。其基本思路是先计算多分相关矩阵,再使用ADF估计。如果这些要求不易做到或因使用多分相关矩阵分析产生非正定矩阵时,研究者可考虑使用项目包(ite m parceli n g)方法进行模型分析。另外,一些研究者将次序性变量视为连续变量处理,但
是这一方法可能会产生以下后果:过度的偏态和峰度会严重影响V2和参数的z检验;与类别大小比较,V2值更容易受到偏态与峰度的影响;标准化系数估计值有变小的趋势,尤其类别数很小时,更易出现测量误差相关现象112。因此,研究者在测验之前应考虑尽量增加次序性尺度的类别数,以减少这类问题的出现。对于SE M 程序下非正态数据的处理,归纳起来常有:运用渐近分布自由估计拟合指数、参数估计和标准误;V2和标准误的校正;使用Bootstrap计算V2值、参数估计和标准误等3种方法。
1.渐近分布自由
B r owne p s渐近分布自由(asy m ptotic distribution free,ADF)估计虽然无需假设数据呈多元正态分布,许多软件可以实现,但有一些实际性限制。拟合函数的计算需要做ADF最佳加权矩阵的转置。以含有20个测量变量的CFA模式为例,需要转置一个210@210的加权矩阵,含有44100的唯一要素,计算需要超过1000的大样本才能产生稳定的估计,对于小或中等大小的样本ADF估计效果很差。如数据有缺失必须使用表列删除法,否则会出现处理不同矩阵使牵涉不同观察值的数目,导致运算困难。正如M uth n(1993)指出的:ADF估计法没有考虑到实际应用中模型大小和样本数量的问题,使用ADF估计模型可能仅是理论上的选择而非实用的方法。
2.Scaled V2和Robust标准误方法
为了提高非正态分布下M L估计V2和标准误的精度。Satorra与Bentler(1988)提出了调整卡方统计量(S
ca led V2),使之符合V2分布。这种校正方法主要考虑峰度对估计的危害,如果观察变量的多元峰度越大,对于正态理论的V2越做向下的调整。EQS软件m,l r obust提供了该校正方法的程序。Curran等(1996)认为这种方法应用于连续性非正态变量小样本(200~500)资料相当好122。M plus软件m l m也提供了类似的调整的V2检验统计量以及稳健标准误(ro-bust standar d err o rs)。还可以通过该软件的m l m v选项提供类似的检验统计量,称为调整均数和方差的V2统计量(m ean and variance adjusted ch-i square statistic)。Foulad i(1998)一项模拟研究发现这种方法优于标准的ML V2和原始的Scaled V2,特别是在小样本时132。但是目前对其应用很少,很难反映在各种情况下该方法的优越性。
3.解靴带方法
解靴带抽样是指以原来样本为抽样总体,采用有放回地随机抽样抽取同一大小的样本,如此重复此步骤所得样本称为Bootstrap sa m ples。接着进行每一Bootstrap样本的参数估计,最后计算每一参数的均值和标准误142。SE M的Bootstrap方法有:Bo llen-Stine 法、偏差校正法(bias correction)和百分点校正法(per-centile-correcti o n)。Fou l a di通过模拟研究比较了不同样本量及分布情形下Bo llen-Sti n e解靴带法与scaling V2法的性能,Bollen-Stine检验相对较好,尤其在控制
*:安徽省高校省级自然科学研究项目(K J2009B111Z)
Ñ类错误或小样本时。采用解靴带样本用于校正模型拟合检验的V 2
统计量,
计算估计参数的标准误。在非正态数据的SE M 模型研究中,特别是小样本,Boo-t strapp i n g 的应用效果较理想。
另外,还可以利用统计方法进行数据转换,数据的正态性转换视数据分布的特性而定。原始数据分布为低阔峰时可取倒数,原始数据分布为负偏时可取平方根,原始数据为正偏时可取对数
112
Bo llen -S ti n e Bootstrap 计算原理
bootstrap检验方法在非正态SE M 应用中,Bo llen -Sti n e 解靴带法将原始数据矩阵转换使随机样本满足虚无假设的方法应用于评价SE M 的拟合,迫使再抽样空间满足模型H 0:隐含协方差矩阵等于总体协方差矩阵152
。获得Z 转换
数据矩阵:
Z =(Y - Y )S
-1/2
E
^
1/2
(Y 为N @p 总体矩阵,S 为饱和模型隐含协方差矩阵,E ^
为H 0模型的隐含协方差矩阵)
再对Z 进行解靴带抽样和估计。解靴带得到校正的Bollen -Stine p 值检验模型拟合,产生参数估计,参数估计的标准误以及个别参数是否为零的假设检验。
Bo ll e n -S ti n e 解靴带法处理非正态数据的方法不是调整V 2
值,而是调整V 2
临界值。在J MVN 假定下,
如果接受模型拟合,则V 2
检验的期望值应等于模型的自由度(df )。例如,如果拟合模型为真,数据满足多元正态分布,df =20,那么期望的V 2
值应等于20。但是,非正态数据下模型拟合的标准M L V 2
值会膨胀超过自由度,比如说30。解靴带方法是重新产生一个整体模型拟合的V 2
临界值,不是J M VN 下期望的V 2
=20,而是通过解靴带方法产生一个可能为27的临界值。于
是,原来V 2值30与解靴带的V 2
临界值27比较,而不是与模型的自由度20比较。因此,校正的P 值为Bootstrap V 2
临界值与原来ML V 2
值的比较获得。Bootstrap V 2
临界值的产生。首先,假定样本数据可以反映总体,解靴带程序是从假拟总体中重复地抽取N 个样本,将每个抽取样本转换为输入数据来假定模型拟合为真。这一步是必需的,因为要根据每个中
心V 2分布计算V 2临界值;每个中心V 2
分布假定虚无模型是真。这与ML V 2
检验模型拟合的假定相同:接受虚无假设则V 2
值等于模型的自由度。利用解靴带样本拟合模型,解靴带程序收集每个样本拟合模型的V 2
统计量,并计算它们的均值。这个均数成为原来分析的V 2
检验临界值
162。
Bo llen -Sti n e Bootstrap 应用的实例分析AMOS 程序采用三步处理非正态数据:检验数据
的多元正态性,Bo llen -Sti n e 的修正P 值评定整体模型的拟合,Boo tstrap 法产生参数估计、参数估计标准误、置信区间以及个别参数的显著性检验。下面以糖尿病患者生活质量研究的调查资料为案例演示整个操作过程。该数据有406例,删除有缺失值的案例,保留392例,运用这些数据检验模型的拟合(图1)。
图1 模拟实例的结构模型
1.数据非正态性诊断
数据非正态程度常可用偏态(ske w ness)、峰度(kurto sis)、多元峰度(m ultivariate kurto sis)表示。偏态反映数据的非对称性,峰度反映数据平坦或尖峰分布的情况。一般来说,数据偏态的处理较容易,通过数据转换的方式很难处理峰度异常,而且容易影响参数估计值。当峰度绝对值大于10表示峰度有问题,大于20可以视为极端的峰度。当多元峰度的临界比率(critica l ratto ,CR)大于1196,即表示有些变量违反正态分布的假定,研究者需要进一步检查到底哪一变量发生问题。
AM OS 可以评定单一变量的偏态和峰度以及多元峰度,并输出结果。具体操作步骤:打开V ie w,A-na
ly sis Properties 对话框,点击Output 标签,标记Te sts fo r no r m a lity and outliers 、Standardized e sti m ates 、Squared m ultiple co rre l a ti o n s 三栏;第二步从A na ly sis 菜单点击C a lculate E sti m ates 运行模型;从V ie w 菜单打开T ex tO utpu,t N o r m ality 栏输出每个观察变量的最小值、最大值、偏态及其临界比率、峰度及其临界比率,最下行显示多元峰度(m u ltivariate)及临界比率。可以判断该资料是非多元正态数据,其中患病年数是极端非正态变量(表1)。
表1 数据正态性评定结果
V ari ab l e m i n max skew
CR
kurtos is
CR
Y R 18.2-5.248-42.42251.002206.122ECO 423  1.0838.754
0.726
2.932
SS 7510.477  3.854-0.739-2.987H S 4450.700  5.655-0.785-3.174C S 8250.271  2.190
0.4691.895QOL 9
47
0.455
3.680-0.525-2.121
M u ltivar i ate
92.719
93.679
*:患病年数=Y R,经济状况=ECO,社会支持=SS,健康状况=
H S,应对方式=CS,生活质量=QOL;最小值=m i n,最大值=m ax,偏态=skew,峰度=ku rtosis ,临界比率=CR,多元峰度=M u lti va ri a te
2.B o llen-S ti n e P值评定整体模型的拟合
对于非正态性数据模型拟合的评定应采用B o-l len-Sti n e P值而不是标准M L P值。为获得Bo ll e n-Stine检验,从V ie w/Set的Analy sis Properties对话框,点击B oo tstrap标签,勾选Perfo r m B oo tstrap,在其后的N um ber o f Boo tstrap sa m p l e s框填入一个具体的B oo-t strap样本量,如2000(B oo tstrap提取样本的次数一般是250~2000次),勾选Bo llen-S ti n e boo tstrap框后计算输出结果。
输出结果包括三部分。第一部分为解靴带样本迭代信息,反映了通过解靴带抽样运算法则,解靴带样本的生成过程。第二部分显示整体模型拟合的假设检验Bo ll e n-sti n e P值为01137。与之对照,采用常规的M L 方法检验模型与这些非正态数据的拟合结果是:V2= 101416,df=3,P=01015,则拒绝虚无假设。而B o llen-Stine Boo tstrap方法接受这个被M L V2拒绝的模型。第三部分为2000个B oo tstrap样本数据的V2分布及形态。显示2000个样本的V2均值为51618(以V2均值作为V2临界值,则P=01137)。
31B oo tstrap参数估计和标准误
接受整体模型拟合后需要分析路径系数及其统计显著性,然而,AM O S不能同时获得B o llen-S ti n e P值和B oo tstrap参数估计及其标准误,为此,必须重回A-naly sis Properties窗口,点击B oo tstrap。取消Bo ll e n-Stine B oo tstrap栏,勾选Percen til e confi d ence i n terva ls 和B i a s-co rrected confi d ence i n terv als两栏。在Num ber of B oo tstrap栏空格内输入一个样本量,如250,表示250个B oo tstrap样本。N ev itt and H ancock认为增加解靴带样本量对解靴带估计质量没有实质的改善172。如果要解释P值,则应当选择更大的解靴带样本,如2000,以保证概率估计的稳定性。
输出解靴带参数估计的计算结果:路径系数、方差、协方差、均数和截距。从方法介绍的角度,输出表显示了原正态假设下M L法的协方差估计值(表2)和解靴带的协方差估计值(表3)。表2显示了各变量间协方差估计值、标准误、临界比率及P值。如SS与Y R 之间的参数估计-01741,标准误01247,临界比率为-01741/01247=-21998,采用P<0105作为有统计差异标准,P=01003<0105。
表3显示B oo tstrap各变量间协方差估计结果:标准误的boo tstrap估计(SE),近似标准误(SE-SE), Bo o tstrap样本的参数估计均值(m ean),M L估计与Bo o tstrap估计均值的差异(bias),偏差大说明B oo-t strap分析结果与M L分析结果差别明显,近似标准误的偏估计(SE-bias)。可以使用M ean和SE计算临界比率。例如SS和YR的Bo otstr ap估计,临界比率为-11616(-01711/0144),P>0105。正态假设的M L法与Bo llen-S ti n e Boo tstrap法计算出的各变量间协方差估计结果存在差异,Boo tstrap法能有效控制Ñ类错误162。
表2M L法的参数估计
E sti m ate SE CR P
SS<-->Y R-0174101247-2199801003
SS<-->ECO27190821169121867**
ECO<-->HS35182921715131196**
SS<-->HS83106261157131491**
YR<-->HS-1144101309-41669**
ECO<-->Y R-0170301115-61097**
**表示P<01001
表3B oo tstrap的参数估计
Para m eter SE SE-SE M ean Bias SE-B i as SS<-->Y R0144001007-017110103001010 SS<-->ECO1196101031271766-0114201044 ECO<-->H S2173401043351683-0114601061 SS<-->H S4170101074821772-0129001105 YR<-->H S0138301006-114120102901009 ECO<-->Y R0112701002-016950100901003
表3没有报告各变量间参数估计的P值,实际上可以从percentile-co rrected和b ias-co rrected检验结果PC Confidence和BC C onfi d ence中得出各变量间参数估计的置信区间和P值(表4)。M oony&D uva l注意到不同Bo o tstrap置信区间技术常会出现计算结果的差异182。到目前为止,没有一种更好的方法
适合于所有情形的数据分析。他们提出明智的建议:报告多元置信区间类型,并从中得到合适的结论。由于置信区间的P值是独立计算,如果将置信区间默认的90%改为95%,各变量协方差置信区间会相应改变,但PC和BC置信区间的P值不会改变。
此外,B oo tstrap检验统计表还包括标准系数、R2、总效应和间接效应,这与标准M L估计输出形式相同。即使数据服从多元正态性假定,也可以运用B oo tstrap-p i n g检验这些参数的显著性。
表4不同Bo o tstrap置信区间和P值
Para m et er
BC C on fi dence
E sti m at e Low er Upper P
PC C onfi d ence
E sti m at e Low er Upper P
SS<-->Y R-01886-11354-0134401015-01886-11339-0133001017 SS<-->ECO271908241985311307
0100127190824169330192301001 ECO<-->H S3518293118004015220100135182931143139194401001 SS<-->H S8310627518279019030100183106275133990139201001 Y R<-->H S-11539-21097-1107601000-11539-21023-0198401001 ECO<-->Y R-01711-01968-0153901000-01711-01922-0150701001 *:置信区间90%1
注意
使用AM OS的Boo tstrap程序时,有几个方面值得关注:首先,AM OS要求非正态性数据的完整性,即
406个,删除缺失数据后保留392个样本量,有大约315%的原始数据缺失。Ro th建议缺失数据不足总量的5%时,可采用表列删除法(list w ise da ta de l e ti o n)处理不完整数据;如果数据缺失率超过5%,应采用其他方法处理更适当。第二,要获得可信赖的参数估计,样本量须足够大。N ev itt与H anco ck建议SE M可接收的最小样本量为200。最后,Bo otstr ap方法进行数据分析时,需要将潜变量因子负荷固定为1100,而不是将相应的因素方差固定为1100,因为对于Boo tstrap样本,通过正、负因素负荷的转换可能导致Boo tstrapped标准误估计的增大192。
参考文献
1.李茂能.结构方程模式软体AM OS之简介及其在测验编制上之应用.
台北:心理出版社,2007:338-345.
2.C urran PJ,W est SG,Fi n ch J F.The robu st ness of test statisti cs to nonnor-
m ality and specifi cati on error i n confir m atory fact or ana l ysis.Ps ycho l og-i calM ethod s,1996,1(1):16-29.
3.Fou l ad iRT.C ovari ance struct ure analysis techn i ques under cond iti on s o f m u lti vari ate nor m alit y and nonnor m alit y-M od ifi ed and boo tstrap test statistics.Paper p res en ted at t he Am erican Educati onalR esearch A ss ocia-ti on AnnualM eeti ng,San D i ego,CA,1998.
4.敖雁,王学枫,汤在祥,等.B oo tst rap方法在平均数假设测验中的应用.中国卫生统计,2006,23(6):542-544.
5.E nders CK.A pplying t h e B o ll en-S tine bootstrap for goodness-of-fit m easures to struct u ral equati on m odels w ith m i ss i ng dat a.M ulti vari ate
B ehavioralR es earch,2002,37(3):359-377.
6.B o ll en KA,S ti ne R.B oo tstrapp i ng goodness o f fitm eas ures i n st ructura l equation m odels.Soci o l og i calM ethods and Res earch,1992,21(2):205-229.
7.N ev itt J,H ancock GR.Rel ati ve perfo r m ance of res ca li ng and resa m p li ng approaches t o m odel ch-i s quare and para m eter st and ard error esti m ati on
i n structural equati on m odeli ng.Paper presented at t he Am eri can Educa-ti onalResearch A ss ociati on AnnualM eeti ng,S an D i ego,CA,1998.
8.M oon ey CZ,DuvalRD.Boo tstrapp i ng:A nonpara m etri c app roach t o sta-tisti cal i nference.New bury Park,CA:Sage Pub li cati on s,1993.
9.H ancock G R,N ev itt J.B oo tstrapp i ng and the iden tifi cati on of exogenou s
l atent variab l es w ith i n struct ural equation m odels.S truct u ral E quati on M od eli ng,1999,6(4):394-399.
(上接第83页)
能够采用两个独立总体相关系数的比较方法进行分析。Cohen152提出针对关联的相关系数进行比较的方法,具体如下:
如果想比较变量X和Y的相关系数r xy和变量Z 和Y的相关系数r zy差异是否有统计学意义,检验统计量为:
t=
(r xy-r zy)(n-1)(1+r xy)
2(n-1)
n-3
|R|+(
r xy+r zy
2
)2(1-r xz)3
,v=n-3(3)
其中|R|=1-r2xy-r2zy-r2xz+2@r x y@r zy@r xz。
根据陆慰萱112在文中提供呼吸症状和活动受限
的相关系数为0115,将这三个相关系数代入公式(3),得到t=-1138,P=0118>A=0105,因此不能拒绝H
,尚不能认为SGRQ总分与活动受限相关程度比SGRQ总分与呼吸症状相关程度高。
关于两个或多个总体相关系数比较的假设检验方法有很多,上面根据相关系数之间是否有关联分别介绍一种,希望借此抛砖引玉,让大家了解和重视这方面的假设检验方法,从而解决更多相关的实际问题。
参考文献
1.陆慰萱,张一杰,等.应用S t George c s呼吸问卷评价我国慢性阻塞性
肺疾病患者生活质量的价值.中华结核和呼吸杂志,2003,26:195-198.
2.王秋月,王玮,等.慢性阻塞性肺疾病患者生活质量及其影响因素分
析.中华结核和呼吸杂志,2003,26:811-812.
3.Fis her RA.S t ati s ti calm et hods for research w ork ers.fourt een t h ed iti on.
dav i en,CT:Hafner Pub lis h i ng C o m pany,1970.
4.Snedeco r,C ochran.S tatisti cal m et hod s.Iow a S tate U n i versit y Press,
1980:185-188.
5.C ohen,Jacob,Patrica C ohen.App lied m u lti p le regres s i on/co rrelati on a-
nal y sis fo r the behav i o ral sci ences.H ills dale,N J:Law rence E rl bau m A s-soci ates.S econd Ed ition.1983.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。