stata⾯板数据计量知识及参考资料
计量知识:
1、横截⾯数据、时间序列、⾯板数据:
横截⾯数据是在同⼀时间,不同统计单位相同统计指标组成的数据列。横截⾯数据是按照统计单位排列的。因此,横截⾯数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同⼀时间截⾯上的数据。
,Pr i t emium ,1Pr i t emiun -H A Turnover Tutnover A H Size +/H A H SO SO +22/A H σσDummy
时间序列数据:
在不同时间点上收集到的数据,这类数据反映了某⼀事物、现象等随时间的变化状态或程度。
⾯板数据:
是截⾯数据与时间序列数据综合起来的⼀种数据类型。其有时间序列和截⾯两个维度,当这类数据按两个维度排列时,是排在⼀个平⾯上,与只有⼀个维度的数据排在⼀条线上有着明显的不同,整个表格像是⼀个⾯板,所以把panel data 译作“⾯板数据”。
举例:
如:城市名:北京、上海、重庆、天津的GDP 分别为10、11、9、8(单位亿元)。这就是截⾯数据,在⼀个时间点处切开,看各个城市的不同就是截⾯数据。
如:2000、2001、2002、2003、2004各年的北京市GDP 分别为8、9、10、11、12(单位亿元)。这就是时间序列,选⼀个城市,看各个样本时间点的不同就是时间序列。
如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP 分别为:北京市分别为8、9、10、11、12;
字符串是什么型上海市分别为9、10、11、12、13;
天津市分别为5、6、7、8、9;
重庆市分别为7、8、9、10、11(单位亿元)。
这就是⾯板数据。
*变量合并
2、截⾯数据,多重共线性和异⽅差都需要考虑,截⾯数据不需要检测DW 值!你做出来R ⽅⽐较⼩,可能原因是你的回归⽅程中没有纳⼊关键变量,建议你采⽤逐步回归⽅法,以提⾼R ⽅!对于截⾯数据来说,R ⽅⼀般在0.7左右都能接受!相关分析不是必要做的,在模型中加⼊什么变量进⾏回归,主要是依据前期
的理论分析和研究⽬的!仅就计量回归⽽⾔,这些步骤只是告诉你,⾃变量与因变量的相关性会影响变量在模型中的显著性,⽽⾃变量间的相关则会带来多重共线性!
3、线性相关,也叫⾃相关:可以⽤来看x和y的相关性,常⽤来考察各个x ⾃变量之间是否存在相关关系。
Pearson 相关系数=0.5994, P 值=0.0182<0.05,因此可以认为⾝⾼与体
重呈正线性相关。
4、保留字符串中的前四个字符、excel⾃动重算
gen var2=substr(var1,1,4) 从第1位开始提取后⾯的4位数
excel有时候填充柄功能不⾏,下拉只能是复制,⽽不能把公式⼀直⽤下来,这个时候,应该操作:⽂件–选项–公式–⾃动重算。即可。
5、Stata的单引号很特别,是` ' 有两个符号,左边是Tab键上⾯那个键,即~键,右边是引号键,即回车键左边这个。要分别按两个组成⼀个单引号。
6、把字符型⽇期改成数值型
destring date, replace ignore("-")
这个命令的意思是,把date时间那⼀列,原来这⼀列是字符型格式,如
2016-01-13,那么要做时间序列来处理的话,先要改成数值型格式,⽐如20160113,这个命令就是把
这个字符串⾥⾯的“-”给删除掉。
destring gov_0,replace
或者可以直接通过这个语句来把⼀个变量由字符串变成数值型。
7、截⾯数据的回归
reg y x1 x2 x3 x4 x5, robust 截⾯数据⼀定要加robust
R⽅是可以解释y变量的40%左右,不好。Cons是常数项,p⼩于0.1⽐较好。
8、⼴义差分法
9、序列相关、⾃相关
10、截⾯数据、时间序列、⾯板数据⽰例截⾯数据:⼀个时间节点
时间序列:多个时间节点,⼀家企业
⾯板数据:不同公司,不同时间点
11、时间序列、⾯板数据回归分析
时间序列:
先要tsset var1 \*var1是时间的⼀列,先⽤这个命令表⽰这⼀列是时间序列再⽤ reg y x1 x2 x3 x4 x5
⾯板序列:
xtset var1 date
这是想要设定前两个变量,必须这样弄,才可以进⾏⾯板数据的后续探讨
12、把字符型改成数值型
destring var1, replace 把var1改成数值型,原来是字符型
13、⾯板数据先⽤随机效应和固定效应都试⼀下,看哪个好,语句:Hausman检验有两种,⼀种做随机模型和固定效应模型,⼀种是检验OLS和IV估计
⼀般⽽⾔,估计⾯板数据容易⾛到两个极端:⼀个是把其看成截⾯数据⽽进⾏混合回归,
要求每个个体都有完全相同的回归⽅程;另⼀个是为每个个体估计⼀个单独的回归⽅程。前
者忽略个体间不可预测或被遗漏的异质性,⽽该异质性与解释变量相关⽽导致估计不⼀致,
后者则忽略个体间的共性,也可能没有⾜够⼤的样本容量。折中的估计策略:假定个体的回
归⽅程拥有相同的斜率,但可以有不同的截距项,来捕捉异质性,这称为“个体效应模型”。
包括个体固定效应、个体随机效应、混合效应。
xtreg var3 var4 var5 var6,fe \*固定效应估计
est store fe \*储存结果
xtreg var3 var4 var5 var6,re \*随机效应估计

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。