复杂调查资料的特点与统计分析方法概述
崔壮;胡良平
【摘 要】复杂抽样是在抽样过程中采用除一阶段单纯随机抽样外,其他抽样方法或其组合的抽样方案.本文对复杂抽样资料的特点、基于复杂调查资料进行差异性分析、多重回归分析以及进行生存资料多重回归分析的要点进行宏观概述.为科研工作者进行复杂抽样资料的分析提供参考和借鉴.
【期刊名称】《四川精神卫生》
【年(卷),期】2017(030)005
【总页数】5页(P410-414)
【关键词】复杂调查;特点;抽样权重;统计分析技术;多重回归分析
【作 者】崔壮;胡良平
【作者单位】天津医科大学公共卫生学院卫生统计学教研室,天津 300070;军事医学科学院生物医学统计学咨询中心,北京 100850;世界中医药学会联合会临床科研统计学专业委员会,北京 100029
【正文语种】中 文
【中图分类】R195.1
1.1 何为复杂抽样
复杂抽样是指在抽样过程中采用除一阶段单纯随机抽样外,其他抽样方法或其组合的抽样方案,通过复杂抽样完成的调查称为复杂调查[1]。复杂抽样通常具有分层、整、不等概率或多阶段设计等方法,其产生的样本称为复杂样本。复杂抽样有以下优点:节省人力物力,使大规模调查更具可行性;可灵活调整样本量在各级抽样单位中的分配;可通过改变抽样比来提高子总体的代表性和估计的可靠性。因此,目前在社会科学领域以及卫生领域调查研究中[2],尤其是大规模调查,一般涉及多地区或多中心的抽样问题,由于单纯随机抽样因调查对象过于分散、成本高且可行性较低[3],故选择复杂抽样设计。
1.2 分析复杂抽样资料的困难
复杂随机抽样中每个阶段的抽样方法不一定相同,其抽样误差的计算随着抽样阶段及抽样方法的增多变得极为复杂。然而,研究者在统计分析时,常忽略之前采取的抽样设计方法,将资料均视为来自单纯随机抽样设计下获得的资料来处理。实际上,在不同抽样率下得到的等量样本量的样本数据所包含的信息是不同的,即“抽样权重”不同[4]。有研究[5]显示,对分层抽样获得的复杂调查数据进行列联表的卡方检验、构建OR的95%置信区间时,若忽视分层,会导致过于保守的检验(P值偏大),OR的置信区间通常也会变宽;而对于整抽样,通常会产生相反的影响,若忽视整效应,会获得偏小的P值和更窄的置信区间,而事实上的置信区间并非如此精确。
1.3 需要引入权重
文献[4]认为,在抽样调查研究中将观测对结果的贡献程度考虑在内,在分析中应考虑抽样权重和观测权重,同时也提出了综合权重的概念。研究显示纳入综合权重的结果更加灵敏且准确、稳健。
观测权重是基于综合评价中权重系数的思想,在回归分析中引入反映每个个体或观测对总体的重要性的度量,表示在其他观测不变的情况下,该观测的变化对结果的影响程度。常用的有经验权重法、试验次数权重法和贡献权重法等[4]。
抽样权重是在抽样研究中,为反映所抽取的样本中各个观测在总体中的重要程度,或样本中各个观测代表总体中个体的数目。抽样权重的大小与抽样方法有关,分为基础抽样权重、调整抽样权重与总抽样权重[4]。
综合权重是在对随机抽样所得的数据进行统计分析时,不仅考虑抽样权重,还将观测权重考虑在内,计算各个观测对结果总的重要程度。其计算方法是:综合权重=观测权重×抽样权重[4]。
但是,随着抽样率的变化和样本的不同,同一个观测对模型拟合的贡献是不同的。而对于不同的抽样率和样本中同一个观测的观测权重应当是不同的。同时,基于观测权重得到的综合权重也应当随样本的变化而变化。因此,如何动态地计算观测权重与综合权重仍需进一步研究[4]。
1.4 如何准确估计抽样误差
实际研究中,大多数大规模的样本并非通过简单随机抽样获得的,或通过分层减小方差,对感兴趣的领域进行估计,或通过分来降低成本。在复杂调查中,采用复杂的抽样方式获得的数据通常不是独立的,并且每个样本被抽到的概率是不相等的。但标准统计软件一般是按假定观测单位是独立等分布的条件下编写的分析程序,可以给出均值等统计量的正确估计,但这时标准误、置信区间和假设检验往往是不正确的,在计算时并未考虑抽样设计[6],如直接采用SAS中的SUMMARY、FREQ、MEANS、REG等标准统计分析过程来分析复杂抽样数据会导致统计推断错误。目前,SAS 9.0或更高的版本可以通过SURVEYMEANS、SURVEYFREQ、SURVEYREG、SURVEYLOGISTIC和SURVEYPHREG等过程进行复杂调查资料的分析[7]。
1.5 复杂调查中方差的估计方法
在复杂抽样中,抽样权重包含了构造点估计所需的全部信息,但它不包含标准误估计的任何信息,因此仅仅知道抽样权重并不能进行统计推断。统计量的方差取决于任何一个单元的入选概率,因此需要除抽样权重以外更多关于抽样设计的信息。对于复杂调查中方差的估计方法,主要包括线性化、随机组、重抽样以及广义方差函数等[8]。
Taylor级数线性近似法(Taylor Series Linearization, TSL):复杂调查方差估计中的理论特性是被研究得最透彻、最常采用的方法,其基本思想是利用Taylor级数方法将非线性统计量线性化,然后计算方差的估计值[9-10]。但计算过于繁琐,在包含权数的复杂函数中难以应用,对估计的每个非线性统计量都需一个单独的方差计算公式,还需要进行专门的设计,每个统计量的计算方法都不同。准确度取决于样本量,样本量不够大,方差的估计通常偏低。
重抽样法:分层多阶段抽样中采用重抽样方法,通过从完整样本中抽取子样本计算估计值,避免了求偏导数的过程。主要包括平衡重复复制法(Balanced Repeated Replication, BRR)、刀切法(Jackknife Repeated Replication, Jackknife)和Bootstrap法。
Jackknife法:基本思想是将总体分成k组,每次抽取时从中去掉一组,得到的多个二次抽样样本,每个二次样本可得到一个均数或者率的估计值,根据估计值的差异估计方差[11],属于较为全能的方法。每层多于两个组的分层多阶段抽样中,BRR法不再适用,Jackknife法则有较好的表现。对于某些统计量估计方差结果不佳,如简单随机抽样中分位数的方差估计效果较差。
BRR法:基本思想是假设总体分成L层,从每层随机抽取两个样本单位,共抽取2L次,产生2L个样本,得到多个均数或率的估计值,利用多个估计值的差异估计方差[8,12]。BRR几乎可应用于所有统计量,但通常只能用于每层只有两个组(PSU)或能转化为每层有两个PSU的设计。与Jackknife法和Bootstrap法相比,BRR法计算量相对较小。抽样设计在每层中有两个组,估计的是有放回抽样的方差,可能会高估方差。
Bootstrap法:适用于通常抽样设计中的非光滑函数(如分位数),但计算量大于Jackknife和BRR。
bootstrap检验方法2.1 SURVEYFREQ过程简介
PROC SURVEYFREQ根据获得的调查数据的抽样设计计算误差估计值,调查设计可以是一个复杂的抽样调查,如分层抽样、整抽样以及不平衡加权,PROC SURVEYFREQ提供了很多误差估计的方法,包括TSL、BRR法和Jackknife法。
SURVEYFREQ过程利用样本调查数据生成单向到多向频率表和交叉表。这些表包括人口总数、人口比例(总体比例,行和列比例)以及相应的标准误差的估计、置信限度、变异系数和模型的效果评价。
对于单向频率表,PROC SURVEYFREQ提供了针对抽样设计的调整Rao-Scott卡方拟合优度检验;对于双向频率表,PROC SURVEYFREQ提供了基于行和列之间无关联的检验。这些检验包括Rao-Scott卡方检验、Rao-Scott似然比检验、Wald卡方和Wald对数线性卡方检验。
以下语句说明了PROC SURVEYFREQ的用法:
PROC SURVEYFREQ < options > ;
BY variables ;
CLUSTER variables ;
REPWEIGHTS variables < / options > ;
STRATA variables < / option > ;
TABLES requests < / options > ;
WEIGHT variable ;
PROC SURVEYFREQ语句调用该过程,识别要分析的数据集,并指定方差估计方法。PROC SURVEYFREQ语句是必需的。TABLES语句指定频率或交叉表,以及这些表的统计量和检验结果。STRATA语句列出了在分层设计中的分层变量。CLUSTER语句指定在整设计中的组变量。WEIGHT语句指定抽样权重变量。REPWEIGHTS语句指定经过BRR法或者Jackknife法估计误差后的重新加权变量,BY语句对以BY变量分组的各个亚族分别进行完全独立的分析。
SURVEYFREQ与FREQ过程的不同点主要体现在PROC SURVEYFREQ后可以根据需要选择不同的误差估计方法,比如VARMETHOD=TAYLOR,VARMETHOD=BRR,VARMETHOD=BRR (fay=c)(c是一个相关系数),VARMETHOD=JACKKNIFE,并且可以使用CLUSTER语句、REPWEIGHTS语句、STRATA语句。
2.2 SURVEYMEANS过程简介
SURVEYMEANS过程通过计算调查资料的统计量来估计调查人的特征。通过该过程可以估计均数、合计、百分位数、四分位数间距。PROC SURVEYMEANS也可以进行域分析,即对一个亚人或者区域进行估计。该过程也可以估计误差、置信区间以及进行t检验。
PROC SURVEYMEANS运用基于复杂抽样设计的TSL或者运用BRR来估计抽样误差,该过程适用于复杂抽样过程如分层抽样、整抽样和不平衡加权抽样设计。
以下语句说明了PROC SURVEYMEANS的用法:
PROC SURVEYMEANS < options >< statistic-keywords > ;
BY variables ;
CLASS variables ;
CLUSTER variables ;
DOMAIN variables < variable_variable variable_variable_variable ... >< / option > ;
RATIO < ’label’ > variables / variables ;
REPWEIGHTS variables < / options > ;
STRATA variables < / option > ;
VAR variables ;
WEIGHT variable ;
PROC SURVEYMEANS选择输入要分析的数据集,指定要计算的统计量以及误差估计方法。VAR语句指定要分析的变量。CLASS语句指定要被分析数值变量转换为分类变量。STRATA语句列出在分类设计中进行分类的变量。CLUSTER语句指定在整设计中组变量。DOMAIN语句列出域分析或者亚人分析的变量,RATIO语句指定要进行率分析的均数或者百分位数,WEIGHT语句指定抽样权重变量,REPWEIGHTS语句指定经过BRR或者Jackknife法估计误差后的重新加权变量,BY语句对以BY变量分组的各个亚族分别进行完全独立的分析。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。