第二讲离散时间的事件史分析模型
提要
1.离散时间事件史统计模型的概念
2.资料结构
3.统计分析
4.统计结果的解释
5.其他推广
阅读材料
Paul Allison: Sociological Methodology 1982
odds1.离散时间事件史模式的概念
基本特点
▪事件是离散型的:是/否,存在/不存在
▪时间是离散型的:
o风险率在一个时间区间内是常量:每年第四季度的职务提升;
o风险率可能随时变化,但是我们只能在一个固定的时间点上测量:一年的平均收入
o风险率可能随时变化,但是解释变量的更新只是在一个固定时间点上测量;
为什么使用“离散时间”的事件史统计模型?
▪参数模型的困难:
o删截的资料处理;
o随时间变化的变量的资料处理;
▪许多资料信息的更新都是在离散性时间区间的:每年、每季度,等等。使用离散性时间的模型不会浪费信息。
▪离散性时间模型的优点:
o容易处理删截情况
o容易更新随时间变化的变量
o容易处理资料结构
o容易解释统计结果
统计模型:Logistic 模型
(0)起点:一个基本的统计模型: h(t) = β’x
(1)定义离散时间的风险率:
P it = Pr[T i= t | Ti ≥t, x it]
上式的表述与风险率函数有类似之处,即我们关心的是在某一风险集
(Ti ≥t)中,事件(T i= t)发生的概率。
(2)下一步,建立风险率与时间和解释变量之间的关系。最为常用的统计模式是the logistic regression function
1
•Logistic 模型:
binary outcome (0/1)
interested in probability
复习:关于概率的模型化 odds, log-odds.
odds
log-odds
probability
在这里, t = 1, 2, 3,… 即事件(y=1)和自变量(x it)都是离散时间性的。这个模型在事件通常在一个离散时间段里(非连续性时间)发生的情形下最为适用。
Logistic模型与事件史分析方法之间关系
引入随时间变化的变量
▪建立person-year 资料记录
▪在一定的时间点(或时间段:年)更新信息:工作单位、年龄▪考虑使用(t-1)点上的因变量
考虑风险集
确定风险集的成员—入党事件:
解释统计结果
2.资料结构:入党事件
资料结构
▪人-年(季度,天,小时)资料记录栏(person-year record)
▪在这里,“年”(或季度、天、小时)是离散性时间区间的单位应该考虑的事项
1.假设:可以看做是一个“年度”事件—某一年xxx入党了;
2.我们关心的解释变量(如果随时间变化)是按年度测量的;
a.工作单位
b.教育水平
3.如何将随时间变化的变量结合进资料结构:增加记录;
4.风险集:十八岁以后
5.解释变量应该使用(t-1)时间;
6.如何处理删截的情况:一旦删截,退出风险集,停止记录;
7.一旦经历了事件,退出风险集,停止记录;
例子:sample600_eha 资料结构
3.模型估测
logistic模型使用最大似然值法估测参数:
i – “event”= 1;“no event”= 0。如果一个样本经历了事件,那么它对似然估算的贡献是T的密度函数;如果没有经历事件,或 t i 被删截,那么它的贡献是1-累积分布函数。这个最大似然值法公式与我们以前讨论的风险率估测的最大似然值法的道理是一样的。
4.统计结果的解释
以下我们用“入党”作为一个“生活历程”的重要事件为例来说明上面讨论的这些课题。统计分析的结果见附录的表1。
统计结果的讨论一般包括以下内容
▪统计模型的检验:model significance,nested models,model specification ▪实证假设的检验:test of hypotheses
▪统计结果的表述:统计显著性,作用的方向,作用的大小
统计结果的解释
▪模型的检验—与logistic模型一样
likelihood ratio test:
-2log-likelihood statistics: restricted vs. Unrestricted
χ2 distribution, df: the number of restricted variables
what is the baseline?
▪参数:log-odds → log(rate)
odds → rate
▪风险率的特点:
o或上升、下降、不变,但不能是负数
o参数是正值:风险率上升
o参数是负值:风险率下降
解释变量的参数估测:
▪连续性变量/非连续性变量
▪统计显著性
▪正负号
▪数值大小
▪参数可以在不同层次上表达
o coefficient:paramters are for log-odds—log-rate:
▪log{p(Y=1)/[1-p(Y=1)]} = β’x
o odds-rate:hazard ratio (hr)
o连续变量:自变量每一单位的变化导致的风险率变化
o定类变量:与参考体相比,风险率的变化
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论