用stata处理面板数据(中文版)_stata关于面板数据说明--688IT编程网

Chp8 Panel Data

一直想把看Panel模型时的感悟整理成笔记，但终因懒惰而未能成行。今天终于下决心开了个头，可遗憾的是，这个开头却是从本章的结尾写起，因为这一部分最容易写。不过，凡事有了好的开头基本上也算成功一半了，所以后面的整理工作还要有劳各位的督促。文中的不足还望不吝指出。

8.1简介

8.2一般模型

8.2.1固定效应模型（Fixed Effect Model）

8.2.2随机效应模型（Random Effect Model）

8.3自相关性

8.4动态Panel Data

8.5门槛Panel Data

8.6非稳定Panel Data及协整

variable什么意思中文

8.7Panel V AR

8.8Stata8.0实现

在介绍了Panel Data的基本理论后，下面我们介绍如何使用STATA8.0软件包来实现模型的估计。前面我们已经提到，Panel Data具有如下数据存储格式：

company year invest mvalue

11951755.94833.0

11952891.24924.9

119531304.46241.7

119541486.75593.6

21951588.22289.5

21952645.52159.4

21953641.02031.3

21954459.32115.5

31951135.21819.4

31952157.32079.7

31953179.52371.6

31954189.62759.9

其中，变量company和year分别为截面变量和时间变量。显然，通过这两个变量我们可以非常清楚地确定panel data的数据存储格式。因此，在使用STATA8.0估计模型之前，我们

必须告诉它截面变量和时间变量分别是什么，所用的命令为tsset1，命令格式如下：

tsset panelvar timevar

这里需要指出的是，由于Panel Data本身兼具截面数据和时间序列二者的特性，所以对时间序列进行操作的运算同样可以应用到Panel Data身上。这一点在处理某些数据时显得非常方便。如，对于上述数据，我们想产生一个新的变量Lag_invest，也就是invest的一阶滞后，那么我们可以采用如下命令：

gen Lag_invest = L.invest

得到的新的数据为：

company year invest Lag_invest mvalue

1 1951 755.9 .4833.0

1 195

2 891.2 755.9 4924.9

1 1953 1304.4 891.

2 6241.7

1 1954 1486.7 1304.4 5593.6

2 1951 588.2 .2289.5

2 1952 645.5 588.2 2159.4

2 195

3 641.0 645.5 2031.3

2 1954 459.

3 641.0 2115.5

3 1951 135.2 .1819.4

3 1952 157.3 135.2 2079.7

3 1953 179.5 157.3 2371.6

3 195

4 189.6 179.

5 2759.9

当然，按照这样的思路，我们还可以产生某个变量的移动平均、差分等。总之，凡是可以应用到时间序

列上的命令，基本上都可以应用到Panel Data中来。在完成了上述设定后，我们就可以进行基于Panel Data的数据描述性统计和模型的估计了。

8.8.1Panel Data样本描述性统计

在正式进行模型的估计之前，我们必须对样本的基本分布特性有一个总体的了解。对于Panel Data而言，我们至少要知道我们的数据中有多少个截面（个体），每个截面上有多少个观察期间，整个数据结构是平行的还是非平行的2。进一步地，我们还要知道主要变量的样本均值、标准差、最大值、最小值等情况。这些都可以通过以下三个命令来完成：

1 See help tsset, 命令为［whelp tsset］。另外，如果想获得关于Panel Data的所有帮助，可采用命令[whelp xt]。2所谓平行面板数据是指所有截面单位的观察期间都相同，如我们在分析中国各省份的经济增长时，共有29个截面，每个截面都取1979-1998共20年的数据，共有580个观察值，这就是一个典型的平行面板数据。非平行面板数据就是不同的截面有不同的观察期间。

xtdes 对Panel Data截面个数、时间跨度的整体描述

xtsum 分组内、组间和样本整体计算各个变量的基本统计量

xttab 采用列表的方式显示某个变量的分布，较少使用

xtdes命令用于初步了解数据的大体分布状况，我们可以知道数据中含有多少个截面，最大和最小的时间跨度是多少。在某些要求使用平行面板数据的情况下3，我们可以采用该命令来诊断处理后的数据是否为平行数据4。

xtsum命令事实上是我们经常使用的命令summary的扩展，各个统计量都分别在样本总体、组内和组建三个层次上进行计算。基本的命令格式为：

xtsum [varlist] [if exp] [, i(varname) ]

其中，[]中的内容都为可选项，在不设定选项的情况下，STATA默认对所有变量进行统计性描述。另外，如果我们前面已经采用tsset命令声明了截面变量和时间变量，[, i(varname) ]可以完全省略。

需要指出的是，由于我们可以把面板数据简单地视为混合数据（pooled data），所以以往针对截面数据设定的命令，如list、sum、des、tabstat、histogram、kdensity等命令也都可以用于Panel data的样本描述。

8.8.2模型的估计

STATA8.0主要提供了如下模型的估计方法，对于门槛面板数据模型（Panel Threshold）和向量自回归面板数据模型（Panel V AR）等近期发展出来的模型，STATA8.0中还没有现成的估计程序，在估计过

程中还需要我们自己编写程序。

xtreg Fixed-, between- and random-effects, and population-averaged linear models xtregar Fixed- and random-effects linear models with an AR(1) disturbance

xtgls Panel-data models using GLS

xtpcse OLS or Prais-Winsten models with panel-corrected standard errors

xtrchh Hildreth-Houck random coefficients models

xtivreg Instrumental variables and two-stage least squares for panel-data models xtabond Arellano-Bond linear, dynamic panel data estimator

xtabond2 Arellano-Bond system dynamic panel data estimator(需要从网上下载)

xttobit Random-effects tobit models

xtintreg Random-effects interval data regression models

3如，有时需要对某些变量进行差分，另外有些估计方法的构建本身就仅局限于平行面板数据，如前面

提到的门槛面板数据。

4当然，当数据为非平行数据而模型的估计要求使用平行数据，你就需要编写一些小程序进行处理。

xtlogit Fixed-effects, random-effects, & population-averaged logit models

xtprobit Random-effects and population-averaged probit models

xtcloglog Random-effects and population-averaged cloglog models

xtpoisson Fixed-effects, random-effects, & population-averaged Poisson models

xtnbreg Fixed-effects, random-effects, & population-averaged negative binomial models 如果读者想更进一步地了解以上命令的使用细节，可以使用[whelp command]命令（command表示上表中列示的命令）看相关的帮助。一般而言，以上命令都有一些STATA使用者自己编写的扩展程序，我们可以通过STATA自带的网络搜索方式获得5。这种获得新程序的方法往往可以节约你很多编程的时间，比如上面提到的xtabond2命令就是笔者从网上下载的。当然，根据礼尚往来的原则，如果有朝一日你写出了很好的程序，也应该拿出来与大家分享。

下面我们以xtreg命令为例说明上述命令的基本使用方法。xtreg命令主要用于估计以下四种基本的线性面

板数据模型：固定效应模型（Fixed-effect）、随机效应模型（Random-effect）、组间效应模型（Between-effect）和样本平均模型（Population-average）。基本命令格式如下：xtreg depvar [varlist] [if exp] , model_type [level(#) ]

其中，model_type与上述提到的四种模型有如下对应关系：

model_type Models

be between-effects estimator

fe fixed-effects estimator

re GLS random-effects estimator

pa GEE population-averaged estimator

mle maximum-likelihood random-effects estimator

这里有三点需要说明：其一，model_type并非可选项，如果不填该项，则STATA默认采用GLS方法估计随机效应模型；其二，mle项事实上是估计随机效应模型的另一种方法而已；其三，我们上面给出的命

令格式只是一个基本形式，对于不同模型的估计，还有一些相当灵活的控制选项，读者可以参考STATA帮助。

level(#)选项用于标明显著水平，默认值为95%，如果需要将显著水平设定为99%，那么可以将该选项设定为level(99)即可。

下面，我们通过一个具体实例来说明上述命令的使用方法。我们采用STATA8.0自带的范例数据，文件名为grunfeld.dta。里面包含了六个变量，其中company和year分别表示样

5搜索方法为，点击STATA主窗口中help—〉search—〉search all，然后输入你要搜索的关键词即可。在这之前，如果你的电脑无法直接登录国际网，你可能还需要设定STATA内部的代理服务器选项，具体方法为：点击STATA主窗口中preference—〉General preferences—〉Internet prefs，然后输入代理服务器和端口即可。

本公司的代码和观察的年份，相当于我们前面提到的截面变量和时间变量；invest表示公司的投资额；mvalue表示公司的市场价值；kstock表示公司的资本存量。我们的目的是看公司的投资额和资本存量如何影响公司的市场价值。

第一步，声明截面变量和时间变量。命令为：

tsset company year

命令执行后屏幕上会显示：

panel variable: company, 1 to 10

time variable: year, 1935 to 1954

这告诉STATA我们的数据格式为面板数据。

第二步，进行样本的描述性统计。首先我们看看样本的大体分布情况，命令为：

xtdes

我们发现，我们的样本中包含10家公司（n=10），每家公司有20年的资料（T=20，1935-1954），整体上为平行面板数据，因为各个百分位上的T_i均为20。接着，我们列示出样本中主要变量的基本统计量，命令为：

xtsum invest mvalue kstock

命令执行后，屏幕上会显示：

Variable Mean Std. Dev.Min Max Observations invest overall 145.9583216.87530.931486.7N = 200 between 198.8242 3.0845608.02n = 10

within 106.1986-204.3621024.638T = 20

mvalue overall 1081.6811314.4758.126241.7N = 200 between 1334.91770.9214333.845n = 10

within 340.5421-459.9642989.536T = 20

kstock overall 276.0172301.10390.82226.3N = 200 between 200.9701 5.9415648.435n = 10

within 232.6603-369.6181853.882T = 20

当然，你也可以采用sum命令来得到基本统计量，而且在正是写论文时，所需列示的结果并不要求像上面那么详细，此时sum命令反而更实用。命令格式为：

sum invest mvalue kstock

688IT编程网

用stata处理面板数据(中文版)_stata关于面板数据说明

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

688IT编程网

用stata处理面板数据(中文版)_stata关于面板数据说明

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

excel文字递增函数公式

数字递增公式

notepad 正则变量运算

C++regex库常用函数及实例

js正则表达式之前瞻后顾与非捕获分组

indesign正则数字和英文之间的空格

C#匹配中文字符串的4种正则表达式分享

PHP正则表达式匹配中文字符

匹配中文汉字的正则表达式介绍

Python正则表达式如何进行字符串替换

orcl中用正则表达式

sql正则表达式excel

dataframe正则表达式

postgress sql正则

el-upload accept 正则表达式

半小时 正则表达式

判断科学计数法的正则

根据url判断静态资源的方法

Java正则表达式-匹配正负浮点数

替换模糊匹配正则-hive

最新文章

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

能被5整除的十进制整数的正规表达式

大于0小于等于1的正则表达式

linux grep 26个字母

java pattern 正则表达式

掌握文本编辑器中的搜索和替换技巧

标签列表

java正则表达式选择题

非零金额正则表达式

半小时正则表达式