STATA的简单命令
Stata中最重要的命令莫过于help和search了。
help用于查精确的命令,而search是模糊查。
例如:help regress
又如:我们记不清regress命令的全名,只记得regress的前半部分reg,
那么可以输入search reg
用户获得信息最有效的另一个途径是使用Statalist在线论坛,该论坛提供Stata用户交流的一个良好的平台。要加入Statalist,我们可以给以下地址发个邮件:
**************************.edu
邮件的内容为:subscribe Statalist
变量的命名:
1.变量名可达32个字符。
2.字符组成部分为A~Z、a~z、0~9与下划线“_”,这些字符以外的其他符号不可以出现在变量名中。
3.变量名不能以数字开头。
4.变量名区分大小写。
5.倘若遵循以上原则依然无法正常命名变量,那么这个变量可能与Stata自身保留的供系统使用的变量重复了。
创建数据文件的方法:
1.手动输入。
2.从excel等文件中复制粘贴到stata数据表中。
3.运用stata软件导入。
查看数据的概貌:
summarize x
codebook x
如果上面两个命令后面不加内容,那么显示的结果是所有变量的概貌。
对数据进行排序的命令:sort 标准1 标准2 标准3
生成数据的命令:gen
1.如果要得到一阶差分,可以用以下命令:gen Difference_invest(新变量的名称是任意的)=d.invest(d.是运算符号,不得改变;invest是变量名称)
2.要想产生一个新的变量Lag_invest,也就是invest的一阶滞后,那么我们可以采用如下命令:gen Lag_invest = l.invest
3.生成对数的命令:gen Ln_invest=ln(invest)
作散点图的命令:scatter
1.scatter x1 x2:scatter后的第一个变量是纵轴的变量,第二个变量是横轴的变量。
2.scatter x1 x2, connect(1):以直线的方式连接相邻的两个点。
3.scatter x1 x2, connect(1) msymbol(i):散点的显示方式为“看不见”。
相关性检验:
回归方程的斜率系数在一定程度上也是反映两个变量之间关系的密切程度,斜率系数的平方根就是相关系数。
1.pwcorr命令(用于计算Pearson相关系数),它的好处是尽可能使用两两变量中所有没有缺失的数据,而不像correlate只采用没有任何缺失数据的完整的观测值。
pwcorr [varlist], sig star(.1):star(.1)是为了对显著性超过0.1的相关系数打上星号
pwcorr [varlist], sig print (.1):print (.1)则是仅仅显示这些显著的相关系数
2.spearman命令(用于计算Spearman相关系数)。
sort命令排序截面数据的估计命令
如何创建一个截面数据文件?只需要从excle中拷贝相应的数据到stata中即可,不需要特别的命令说明它是截面数据。
截面数据的回归主要需要注意以下几点:多重共线性(当样本量较小时,例如小于100)和异方差。而且需要考察t统计值、R2(adj-R2)、F统计量。
1.检验自变量的相关性。(第1步也可以暂时不做,等到回归结束以后再做)
pwcorr [varlist], sig print(.05)
2.对模型进行回归。
一个普通的回归命令:reg y x1 x2 x3 x4 x5, robust(截面数据一律加上robust)
倘若回归结果的经济学含义不合理(包括系数的正负号和显著性水平),而且前面的相关
性检验中自变量的相关性十分高,那么有可能存在严重的多重共线性,为了精确起见,可以用vif来判断多重共线性是否严重(当vif的最大值大于10,同时各vif的平均值大于1时,表明多重共线性比较严重。使用vif命令时一定要在回归命令执行以后再用)。如何处理多重共线性?剔除变量法、逐步回归法以及增加样本容量。
3.运用剔除变量法进行回归。
4.运用逐步回归法进行回归。
逐步回归命令:
sw reg y x1 x2 x3 x4 x5, pr(.1):逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著。
sw reg y x1 x2 x3 x4 x5, pr(.1) lockterm1:逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著;而且加入lockterm项,为了保证第一项自变量不被删除。
sw reg y x1 x2 x3 (x4 x5), pr(.1):逐步回归,从最不显著的变量开始删除,直到所有变量在设定水平下(0.1)显著;而且加入()项,为了保证x4和x5要么同时出现,要么同时不出现。
时间序列数据的估计命令
如何创建一个截面数据文件?先把数据转移到stata中,然后用tsset命令。
tsset time, yearly(或者weekly、monthly、quarterly)
此时,一定要保证表示时间的那一列数据(即年份)的名称为time。
时间序列数据的回归主要需要注意以下几点:多重共线性(当样本量较小时,例如小于100)和序列相关性。而且需要考察t统计值、R2(adj-R2)、F统计量、D.W.值。
首先用reg命令进行回归,例如:reg y x1 x2 x3 x4 x5,并考察D.W.值(使用estat dwatson这一命令),如果D.W.值严重远离2,那么要进行调整(调整方法如黄底纹),直到调整到2附近,然后考察回归结果是否符合经济学含义,倘若不符合,那么要注意是否受到多
重共线性的影响(通过相关系数和vif值来判断)。在处理多重共线性时,可以用类似于处理截面数据的方法(剔除变量法),同时还要看D.W.值。此外,还可以用差分法来处理多重共线性(此方法用得不多)。
检验DW值的命令:estat dwatson
用广义差分法考虑序列相关性的命令(即调整DW值的命令):
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论