心理科学进展 2022, Vol. 30, No. 9, 2117−2130 © 2022 中国科学院心理研究所
Advances in Psychological Science
/10.3724/SP.J.1042.2022.02117
2117
·研究方法(Research Method)·
结构方程模型统计检验力分析:原理与方法*
翟宏堃 李 强 魏晓薇
(南开大学社会心理学系, 天津 300350)
摘 要 结构方程模型是心理学、管理学、社会学等学科中重要的统计工具之一。然而, 大量使用结构方程模型的研究忽视了对该方法的统计检验力进行必要的分析和报告, 在一定程度上降低了这些研究的结果的证明效力。结构方程模型的统计检验力分析方法主要有Satorra-Saris 法、MacCallum 法与Monte Carlo 法三类。其中Satorra-Saris 法适用于备择模型清晰、检验对象相对简单、检验方法基于χ2分布的
情形; MacCallum 法适用于基于χ2分布的模型拟合检验且备择模型不明的情形; Monte Carlo 法适用于检验对象相对复杂、采用模拟或重抽样方法进行检验的情形。在实际应用中, 研究者应当首先判断检验的目的、方法以及是否有明确的备择模型, 并根据这些信息选择具体的分析方法。 关键词 结构方程模型, 统计检验力, 模型拟合检验, 模型参数检验
分类号
B841
1 引言
结构方程模型(Structural Equation Model, SEM)是心理学、管理学、社会学等学科中重要的统计工具之一, 可以用于验证性因子分析、共同
方法偏差检验、中介/调节效应分析、交叉滞后分
析等多种场景。有研究者指出, 相较于一般的回归分析, 结构方程模型能够更好地控制测量误差, 也支持构建复杂的多变量模型(王阳 等, 2020)。然而, 在使用结构方程模型进行分析时, 却较少
有研究者报告统计检验力的相关内容。事实上, 统计检验力的大小在零假设显著性检验(Null Hypothesis Significance Testing, NHST)中有着重要的参考价值。
统计检验力指的是某假设检验能够正确地拒绝错误零假设的概率。对统计检验力进行分析, 可以帮助研究者确定合理样本量, 避免造成大量的人力和物力的浪费(吴艳, 温忠麟, 2011; 赵礼, 王晖, 2019)。此外, 对评估结构方程模型拟合的χ2
收稿日期:2021-10-09
* 国家社会科学基金项目(19ASH012)资助。 通信作者:魏晓薇,E-mail:*****************
检验而言, 零假设的形式通常为模型拟合良好或
模型间无差异, 而备择假设则通常为模型拟合不良或模型间存在差异。针对此类假设, Ⅱ类错误意味着研究者可能将拟合不良的模型误认为拟合良好的模型进行结果报告。王阳等人(2020)则指出, 若模型设定有误, 建立在此模型基础上的参数估计结果都是不可靠的。在这种情况下, Ⅱ类错误可能带来比Ⅰ类错误更大的危害。
近年来, 有一些研究者开始逐渐意识到使用
结构方程模型作为统计工具时统计检验力分析的重要性, 并开始在研究中报告其先验或后验检验力, 或者至少在讨论部分指出该研究可能在统计检验力上存有不足(Mullen & Crowe, 2017; Hollerbach et al., 2018; Kornadt et al., 2019; Zhang & Zaman, 2020; Zhai et al., 2021)。但值得注意的是, 目前仍有许多
研究者在使用结构方程模型时并未提及统计检验力的有关内容。笔者曾以全文包含“结构方程模型”或“SEM 模型”为条件, 搜索了国内心理学顶级刊物《心理学报》中近5年(2017~2021)内发表的论文, 共检索出51篇论文, 排除其中6篇方法类研究和2篇元分析研究, 余下43篇中提及“统计检验力”或“统计效力”的仅有2篇研究。本文介绍结构方程模型统计检验力分析的基本原理
A
d v a n
c e
s i n
P
s y
c h o l
o g i
c a l S
c i
e n c e
2118
心 理 科 学 进 展 第30卷
和具体分析流程, 并进行了实例演示, 最后对相关问题进行了讨论。
2 结构方程模型中的假设检验
假设检验的技术路线直接决定了检验力分析所能选取的技术路线, 结构方程模型中假设检验的技术路线大致可分为两种: 基于χ2分布的方法以及基于模拟(simulation)或重抽样(resampling)技术的方法。
2.1 基于χ2
分布的结构方程模型检验
基于χ2分布的结构方程模型检验主要包括用于评价模型拟合(或嵌套模型比较)的χ2检验、Δχ2检验、等效性检验、基于模型拟合指数的检验以及用于评价模型参数(或参数的函数, 如中介效应)的Wald 检验、拉格朗日乘子检验(Lagrange Multiplier test, LM 检验)和似然比检验(Satorra, 1989; Chou & Bentler, 1990; Gonzalez & Griffin, 2001; Yuan & Chan, 2016; Yuan et al., 2016; 王阳等, 2020)。这些检验涵盖了结构方程模型相关假设检验的方方面面, 甚至可以说, 目前与结构方程模型有关的参数检验方法要么本身就是χ2检验, 要么可以通过适当变形转化为χ2
检验。根据构建统计量时的细微差别, 上述检验又可被划分为三个子类。
首先是χ2检验、Δχ2检验、等效性检验和似
然比检验, 这四种检验都以结构方程模型的拟合
函数为基础。结构方程模型的拟合函数衡量了样本协方差矩阵S 与假设模型对应的协方差矩阵Σ0之间的差距, 亦即变量间关系在假设模型与实际数据中的差距(吴明隆, 2010; 王阳 等, 2020)。
Muthén(2004)指出, 当样本来自假设模型所对应的正态总体时, 拟合函数值的N −1倍(N 为样本量)随着N 的增大渐近服从中心化χ2分布。另有学者
则指出, 当假定样本来自与假设模型差距小于给定值(记作F 0)的正态总体时, 此时拟合函数值的N −1倍
渐进服从非中心参数为(N −1)F 0的非中心χ2分布(Satorra & Saris, 1985; MacCallum et al., 1996; Yuan & Chan, 2016)。据此, 可以构建出零假设成立时χ2
检验和等效性检验所对应的统计量分布。而Δχ2检验和似然比检验则是在前者的基础上, 增加了对假设模型的约束条件, 通过比较添加约束条件前后实际数据与假设模型的差距是否显著增大来判定添加的约束条件是否“合理”。
第二类是基于模型拟合指数的检验。从原理
上讲, 这类检验与第一类检验差别不大, 其本质是通过拟合指数的定义式将拟合指数换算为非中心参数, 因此该方法仅能用于根据非中心参数定义的拟合指数(如RMSEA 、CFI 、MFI 、GFI 1 等)。此类检验有两种相似但略有不同的技术路线, 一种将基于模型拟合指数的零假设换算为基于非中心参数的零假设, 选择非中心参数的临界值作为构建χ2统计量分布的依据, MacCallum 等人(1996)和MacCallum 等人(2006)就采用了这种做法。另一种则根据Venables (1975)的研究, 以样本计算出的非中心参数估计值为依据构建总体非中心参数的1 − α置信区间, 再根据定义式将其换算回拟合指数, 从而得到拟合指数的1 − α置信区
间, 进而完成统计推断。基于CFI 与RMSEA 的等效性检验则采用了此类做法(Yuan et al., 2016;
Marcoulides & Yuan, 2017; 王阳 等, 2020)。 第三类是Wald 检验和LM 检验。与前两类方法不同的是, 此类方法不再关注样本的拟合函数值本身(非中心参数也是关于拟合函数的函数), 而是通过对关键参数及其标准误的估计, 构建z
统计量进行检验。其中Wald 检验以备择假设成立时的模型为基础完成对目标参数的估计和检验。当处理参数函数形式的假设时, Wald 检验对参数函数在其真值邻域内进行一阶Taylor 展开求得其线性近似值, 进而完成对待检验指标的标准误估计(Chou & Bentler, 1990; Gonzalez & Griffin, 2001)。此时Wald 检验亦称为Delta 法, 叶宝娟和温忠麟(2012)曾介绍过如何利用该方法对多维测验合成信度的置信区间进行估计。与Wald 检验相对, LM 检验以零假设成立时的模型为基础, 将假设条件重写为约束函数的形式, 并构建拉格朗日函数将原假设检验问题变为检验拉格朗日乘数是否为0的问题(Chou & Bentler, 1990)。若拉格朗日乘数为0, 则意味着新假设条件的加入没有改变原假设模型。
2.2 基于模拟或重抽样技术的结构方程模型检验
近年来, 随着计算机技术的发展, 模拟技术和重抽样技术越来越多地出现在统计学领域, 这
1
本文中出现的“GFI”和“AGFI”指的分别是“Unbiased
goodness of fit index”和“Unbiased adjusted goodness of fit index”, 而非“Goodness of fit index”和“Adjusted goodness of fit index”, 详见网络版补充材料。
A
d v a n
c e
s i n
P
s y
c h
o l
o g i
c a l S
c i
e n c e
第9期
翟宏堃 等: 结构方程模型统计检验力分析:原理与方法 2119
些技术被广泛地运用在包括参数估计与假设检验在内的多种场合。不同于基于理论分布的经典方法, 此类方法通常以模拟或重抽样的方式得到目标统计量的经验分布, 并以经验分布代替理论分布进行统计推断, 因此往往用于目标统计量的理论分布不明确或难于计算的情形。此类方法中最为重要的两种分别是基于模拟技术的Monte Carlo (MC)方法2与基于重抽样技术的Bootstrap 方法。
MC 方法最早由Stanis ław Ulam 等人于20世纪40年代中期提出, 其核心思想为采用模拟的方式“重现”某一概率模型所描绘的过程, 以模拟得到的结果作为目标问题的近似解。MacKinnon 等人(2004)在评估中介效应检验的M 法和经验M 法时同时引入了MC 法。Preacher 和Selig (2012)进一步指出MC 法不仅可以用于线性回归和路径分析模型, 也可直接扩展至潜变量模型。该方法假定模型参数服从联合正态分布, 其均值向量与协方差矩阵通常由对原始模型的极大似然估计确定。MC 法将模型参数视为从确定的联合正态分布中抽样的过程, 以此为基础进行随机抽样, 最终基于抽样结果构建中介效应的经验分
布并进行统计推断(Preacher & Selig, 2012)。此外, 在结构方程建模中还有一类Monte Carlo 方法——马尔
可夫链蒙特卡洛(Markov chain Monte Carlo, MCMC)方法, 此类方法主要用于贝叶斯结构方程建模中。由于对“参数”这一重要概念的基础假设不同, 贝叶斯统计中假设检验和统计检验力分
析的过程均与基于频率学派的传统统计学有着较大的区别, 本文的内容仍然在频率学派的框架内, 故对该方法不做过多介绍。
注意到, 基于模拟技术的结构方程模型检验仍然对分布有着较强的假设, MC 法假定路径系数服从联合正态分布, 基于贝叶斯统计的MCMC 法需要给出模型参数的先验分布与给定参数时样本的条件分布。相比之下, 基于重抽样技术的检验对样本分布的假设更弱, Efron (1979)提出的
2
Monte Carlo 方法实际上代表的是以计算机模拟为核心的
一组方法, 为了和后文统计检验力分析的Monte Carlo 方法加以区分, 假设检验的Monte Carlo 方法本文统一简称为MC 方法/MC 法, 特此说明。
Bootstrap 法3仅要求样本是从某一确定总体中随机抽样得到的, 对其分布形态并无更多要求。不仅如此, Bootstrap 法同样基于“利用经验分布代替理论分布进行统计推断”的思路, 在面对一些理论分布不明或难以计算的场合表现良好。由于Bootstrap 法具有前述技术优势, 近年来, 该方法已逐渐成为结构方程模型假设检验问题中的显学, 被广泛应用于多种不同场合。Zhang 和Savalei (2016)指出可以用Bootstrap 法估计结构方程模型拟合指数的置信区间。Rosseel 在其编写的R 程序包lavaan 中给出了求结构方程模型路径系数的Bootstrap 标准误的程序(Rosseel, 2021)。更有研究者利用Bootstrap 法估计一些根据结构方程模型路
径系数计算得到的更复杂的指标。屠金路等人(2005)利用Bootstrap 法对问卷合成信度的置信区间进行了估计; 张涵和康飞(2016)介绍了基于Bootstrap 的多重中介效应分析。方杰等人(2011)的研究及温忠麟和叶宝娟(2014a, 2014b)的研究则分别介绍了Bootstrap 法在中介效应与有调节的中介效应检验中的应用。
表1中按照不同类别总结了结构方程模型涉
及到的常见检验的应用场景、零假设、统计量构建方式、零假设成立时统计量对应的分布以及使用中的优缺点。
3 结构方程模型假设检验统计检验力
的分析方法
统计检验力的分析方法与分析对象所采用的技术路径息息相关, 结构方程模型假设检验统计检验力的分析方法也可大致分为两条不同的技术路线: 基于χ2分布的方法和基于模拟的方法。其中, 基于χ2分布的方法可以用于解决使用经典方法进行结构方程模型假设检验时的统计检验力分析问题, 而基于模拟的方法可以用于解决一般的结构方程模型假设检验的统计检验力分析问题。 3.1 基于χ2分布的统计检验力分析
顾名思义, 基于χ2分布的方法以χ2分布的相关理论为基础。此类方法可以追溯到Satorra 和
3
事实上, Bootstrap 法还分为参数Bootstrap 法和非参数
Bootstrap 法, 参数Bootstrap 法由于需要了解随机变量的分布型态, 在实际中使用不多。本文中若不加说明, Bootstrap 法特指非参数Bootstrap 法。
A
d v a n
c e
s i n
P
s y
c h
o l
o g i
c a l S
c i
e n c e
2120
心 理 科 学 进 展 第30卷
表1 结构方程模型中的假设检验
检验方法所处的类别
具体的 检验方法
应用场景
H 0
统计量构成零假设成立时统计量对应的分布
优点
缺点
基于χ2分布的方法(经典方法)
χ2检验 χ2检验 模型拟合的χ2检验 检验模型拟合F ML0 = 0 Σ = Σ0 (n −1)·F ML
中心化χ2分布 计算简便; 工具成熟 对样本的分布
有较强的假设; 对统计量
的构成有一定
限制;
面对较
为复杂的参数函数
(如中介效应)表
现不佳
基于χ2统计量的等效性检验 检验模型拟合F ML0 > ε Σ与Σ0间的差距大于ε
(n −1)·F ML 非中心χ2分
布
Δχ2检验
嵌套模型比较的Δχ2检验
比较模
型优劣F ML0B − F ML0A = 0Σ0A = Σ0B (n −1)·(F MLB − F MLA ) 中心化χ2分
布
模型参数的似然比检验 检验特
定参数
g (θ) = 0 Σ0约束 = Σ0无约束 (n −1)·(F ML 约束− F ML 无约束) 中心化χ2分布 基于χ2分布理论的检
验
Z 检验 Wald 检验 检验特
定参数
g (θ) = 0 Σ0约束 = Σ0无约束 ()
()
θθSE g g 标准正态分布 LM 检验 检验特定参数
λ = 0 Σ0约束 = Σ0无约束 λλ
SE
标准正态分布
χ2分布非中心参数
检验
拟合指数的检验 检验模型拟合δ = 0 Σ = Σ0 给定的拟合指数 不明, 但临界
值与中心化χ2
分布有关
基于拟合指数的等效性检验 检验模型拟合δ > δk Σ与Σ0间的差距大于f (δk ) 给定的拟合指数 不明, 但临界
值与非中心χ2
分布有关
基于模拟或重抽样技术的方法
基于模拟技术的方法 Monte Carlo
法
MC 法
检验模型拟合F ML0 = 0 Σ = Σ0
给定的拟合指数(包括χ2统计量) 经验分布
放宽了对样
本的假设; 不需讨论目标统计量的理论分布 计算较为困难、计算耗时较长、部分方法要求使用者有编程技术
检验特定参数g (θ) = 0
Σ0约束 =
Σ0无约束 g (θ)
经验分布
基于重抽样技术的方法
Boots trap
法
Bootstrap 法 检验模型拟合F ML0 = 0 Σ = Σ0 给定的拟合指数(包括χ2统计量) 经验分布 灵活度高, 对统计量的构造几乎没有限制; 对样本分布要求宽松
检验特定参数g (θ) = 0bootstrap检验方法
Σ0约束 =
Σ0无约束 g (θ)
经验分布
Saris 早年的一系列研究(Satorra & Saris, 1985; Satorra, 1989; Satorra et al., 1991)。Satorra (1989)指出, 当前述假设检验的H 0不成立时, 其对应统计量(对Wald 检验和LM 检验而言是统计量的平方)服从非中心χ2分布, 且其相应的非中心参数可以通过总体协方差矩阵真值拟合零假设模型计算出的统计量得到。进而可以通过计算备择假设成立条件下目标统计量落入拒绝域的概率求得给定检验的统计检验力。设零假设和备择假设成立时对应的非中心参数分别为δ0和δ1, 则统计检验力1 − β由下式给出:
{
}12
,1(,df MLC
P T δβχ-=<;拒绝域在左侧对应等效性检验) (1a)
{
}
12,1,
(df MLC P T δβχ-=>或拒绝域在右侧对应除等效性检验外的其他检验) (1b)
其中2
,df δχ表示自由度为df , 非中心参数为δ的非
中心卡方分布, T MLC 由下式确定:
{}
02
,(,df MLC P T δχα
=≥拒绝域在左侧对应等效性检验)
(2a)
{}
02,(,
df MLC P T δχα=或≤拒绝域在右侧对应除等效性检验外的其他检验) (2b)
A
d v a n
c e
s i n
P
s y
c h o l
o g i
c a l S
c i
e n c e
第9期
翟宏堃 等: 结构方程模型统计检验力分析:原理与方法 2121
由于δ0在H 0确定时已经可以算出, 因此, 基于χ2
分布的统计检验力分析的关键在于估计δ1。根据估计非中心参数的方法不同, 此类方法又可分为利用总体协方差矩阵Σ进行估计的Satorra- Saris 法和利用拟合指数(如RMSEA 、CFI 、MFI 等)进行估计的MacCallum 法。
3.1.1 Satorra-Saris 法
Satorra-Saris 法主要基于Satorra 和Saris 先前的研究, 其具体步骤如下(Satorra & Saris, 1985; Satorra et al., 1991):
第一步: 定义备择假设成立情况下的模型, 指定备择假设成立情况下的理论总体协方差矩阵Σ。
第二步: 设定样本容量为真实样本容量N , 利用Σ拟合零假设模型。
第三步: 将第二步中计算得到的统计量(针对χ2
分布的统计量为统计量本身, 针对标准正态分布的统计量为统计量的平方)作为δ1的估计, 代入(1a)或(1b)完成统计检验力计算。
使用Satorra-Saris 法估计达到某统计检验力所需样本量的过程与估计统计检验力类似, 只是第二步中需要反复设定样本容量N 进行多次估计, 并计算不同样本容量对应的统计检验力, 最终从中选取满足目标统计检验力所需的最小样本容量。
Satorra-Saris 法通过定义不同于零假设模型
的备择模型重构总体协方差矩阵, 并据此计算统
计检验力。其中, 对备择模型进行定义的过程不仅需要研究者给出明确的模型结构, 还需要研究者指定大量的参数(如路径系数、测量残差等)。因
此, 从应用的角度考虑, Satorra-Saris 法更适合在研究者对备择模型的了解程度较深的情况下使用(如针对模型参数的检验)。
3.1.2 MacCallum 法
Satorra-Saris 法对备择模型过强的假设从客观上提高了该方法的使用难度, 也限制了其适用范围。MacCallum 等人(1996)给出了另外一种估计非中心参数的方法, 该方法同样基于Satorra 和Saris (1985)给出的公式, 但在估计F ML0时, MacCallum 等人给出了一个基于RMSEA 的估计方法。他们指出, 使用样本拟合函数估计值F ML 作为对总体参数F ML0的估计是有偏的, 且F ML0与F ML 之间有如下关系(MacCallum et al., 1996):
2ML0ML RMSEA 1
df
F F df N =-
=⋅- (3) 据此, MacCallum 等人提出基于RMSEA 指标的统计检验力分析步骤(MacCallum et al., 1996):
第一步: 根据零假设和备择假设成立时对应的RMSEA 值、模型自由度以及样本量分别计算出零假设和备择假设成立时的非中心参数δ0和δ1。
第二步: 代入(1a)或(1b)完成统计检验力计算。 与Satorra-Saris 法类似, 当使用MacCallum 法估计达到某统计检验力所需样本量时, 也只需要在第一步中反复设定不同的N 对统计检验力进行多次估计, 最终从中选取满足目标统计检验力所需的最小样本容量。
Kim (2005)对MacCallum 法进行了进一步简化和扩展, 给出了一个快速求取给定统计检验力情况下所需样本量的公式:
2
1RMSEA RMSEA N df δ
=
+⋅ (4)
其中df 为模型自由度, RMSEA 为备择假设成立时对应的RMSEA 值, δ为显著性水平为α、统
计检验力为1−β情况下对应的非中心参数。非中心参数可以通过查表或者使用统计软件计算得到, Kim (2005)在他们的文章最后同时给出了H 0:
F ML0 = 0时利用计算机快速求取δ的SPSS 与SAS
脚本。此外, Kim (2005)在他的文章中还提出了基于CFI 、MFI 与GFI 的计算公式。
相比于Satorra-Saris 法, MacCallum 法采用拟合指数对模型的拟合情况进行了某种意义上的“打包”, 即利用拟合指数对假设模型与实际数据的差距进行了概括, 使研究者免于设定复杂的备择模型, 在分析模型拟合检验的统计检验力时, MacCallum 法仅需要模型自由度、零假设和备择假设成立时对应的拟合指数值[若对关于CFI 的检验进行检验力分析时还需要提供基础模型(base model)的拟合函数值F MLB 与自由度df B , 关于GFI 的检验还需要提供协方差矩阵的秩p ], 大大简化了统计检验力的分析难度。但由于模型参数与拟合指数之间存在复杂的非线性关系, MacCallum 法无法分析模型参数检验的统计检验力。 3.2 基于模拟的统计检验力分析
采用模拟方法对结构方程模型假设检验进行统计检验力分析早年可追溯到Muthén 与Muthén (2002)的研究。采用模拟方法进行统计检验力分
A
d v a n
c e
s i n
P
s y
c h o l
o g i
c a l S
c i
e n c e
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论