Stata语句1
1.reg y x1 x2
predict xxx            返回先前回归中因变量的拟合值,xxx随意变量名。
predict newvar, stdp      预测拟合值的标准差
predict aaa,re            返回先前回归中因变量的残差, aaa为随意变量名。
predict newvar, stdr      预测残差的标准差
predict newvar, xb            产生一个新变量其值为由上面回归方程计算的被解释变量的预测值。
predict newvar, residual      产生一个新变量其值为由上面回归方程计算出的残差
test x1              检验变量x1的显著性,返回当X1系数为零时的F值,F值为回归报告中t值平方。
test x1=x2            检验x1 x2变量的系数是否相等。
test x1*a=x2*b        a,b为任意常数,检验变量x1与x2是否存在某种线性关系。
2.tab x1,gen(x1)        产生x1的虚拟变量。
  gen  fsize1=fize==1      产生虚拟变量,如果family size为1,则令fsize1=1,否则为零。下同。
  gen  fsize2=fsize==2
  gen  fsize3=fsize==3
  gen  fsize4=fsize==4
  gen  fsize5=fsize>=5
3.reg y x1 x2 x3,level(99)        返回回归报告中99%的置信区间。
  set level 97                    在以后的回归中都默认返回97的置信区间。
  reg y x1 x2 x3,noconstant      无常数回归。
4.display fprob(q, n-k-1, F)      返回值为F,分子自由度为q,分母自由度为n-k-1的p值
  di tprob(n-k-1,t)              返回值为t,自由度为n-k-1的p值
5.stata中缺失值为无穷大值。
  reg  bwght  cigs parity  faminc if  fatheduc<. &  motheduc<. 
 
6.标准化变量
egen stdprice=std(price)
                              /可以添加语句:egen stdprice=std(price) ,mean(0)std(0)/
reg y x1 x2 x3,beta 
7. 将回归结果输入到test.doc
reg bwght cigs faminc
outreg2 using test.doc, nolabel replace
reg bwghtlbs cigs faminc
outreg2 using test.doc, nolabel append
reg bwght packs faminc
outreg2 using test.doc, nolabel append
8.逻辑表达式:
缺失值用“.”表示
关系运算符:==,!=(不等于),~=(约等于),>,<,<=,>=
逻辑运算符:&(与),|(或),~(非)
9.对现有变量重新赋值
replace oldvar =exp [if] [in] [, nopromote]
10.describe:报告样本容量、变量个数、变量名称等
11.sort  x1  x2   依次按升序排列
  gsort  -x1      按x1降序排列
12.excle转为stata时日期变量的处理
gen date(或任一新变量名)=date(‘原变量名’,‘YMD’/'DMY'/..)
form date  %td
12. 删掉重复记录 duplicates drop
13.独立样本均值差异检验   ttest
Stata语句2
* Introduction to Stata
log using , text replace
*使用日志(log)。它可以帮助我们记录stata的运行结果
clear all
set more off
*关闭more选项。如果打开该选项,那么结果分屏输出,即一次只输出一屏结果。你按空格键后再输出下一屏,直到全部输完。如果关闭则中间不停,一次全部输出
*cd  D:/undergraECMT/data
*进入数据所在的盘符和文件夹
log using (文件名).log,replace
*打开日志文件,并更新。日志文件将记录下所有文件运行后给出的结果,如果你修改了文件内容,replace选项可以将其更新为最近运行的结果
use , clear
*打开数据文件
*
*insheet using intro_hs0.csv, clear
*
*use intro_hs0, clear
*Summarizing the data
describe
*可以告诉我们每一个变量的含义
*具体了解每一个变量的特征,我们可以用 tabstat 命令。例如我们可以计算 wage 的均值,方差,中位数,范围,具体可以用 help tabstata 查询。
tabstat wage, stats(mean)
tabstat wage, stats (sd median range)
*算 wage 的均值,方差,中位数,范围
tabstat wage, by (educ) stats(mean)
*不同教育水平的工资的均值
summarize
*总计全体,Summarize(Sum)将汇报数据的均值和方差等信息。
summarize wage
*有关工资的均值与方差
*如果需要更详尽的信息,可以进一步使用后缀detail
histogram wage
*画柱状图
scatter wage educ
*画出两个变量之间的分布关系
graph twoway scatter wage educ
*直观的看到教育水平变化时工资的变化,可以用 “scatter” 命令或者 “graph twoway scatter” 命令
graph twoway line wage educ
*“graph twoway”命令可以带别的后缀,例如 “graph twoway line” 则画的是线状图。
graph matrix wage educ
*了解更多的变量之间的关系
graph matrix wage educ exper
graph bar (mean) wage, over (educ)
*了解y的平均值关于x分布的柱状图。
list gender-read in 1/15
*取1到15列数据列表
summarize read math science write
*read math science write的均值方差啊等信息
summarize if read >= 60
*所有read大于60的均值方差
summarize if prgtype == "academic"
*所有prgty1pe == "academic"的均值,方差
weight的所有形式summarize read, detail
*有关read的均值和方差,以及具体分布
*Summarizing the data by group
tab prgtype
*鎬荤粨prgtype鍐呭悇缁勬儏鍐?
bysort prgtype: summarize read write
*涓嶆噦...
tabstat read write math, by(prgtype) stat(n mean sd)
*Correlations
correlate write read science
*modifying the data
order id gender
label variable schtyp "type of school" 
*插入标签
rename gender female   
*重命名
gen score=read+write+math
*在分析的过程中,有些变量并没有在数据中提供,需要我们用原始数据或者回归的结果构造。
gen score2=score^2
gen pass=1 if score>=150
*生成pass=1,当成绩过150时
*egen命令相对复杂一些,它能生成一些“gen”命令无法生成的变量。
egen wagesum=sum(wage)
*生成wagesum 为每个人的工资和
egen wagemedian=median(wage)
*生成 wagemedian 为工资的中位数(median)
egen wagemax=max(wage)
*生成wagemax 为工资的最大值
egen wagemaxeduc=max (wage),by (educ)
*产生一个变量“wagemax”为相同教育水平里的最高工资
*replace
*我们需要替换某一变量,我们可以用的命令是“replace”
gen wagehigh=1 if wage>=10
replace wagehigh=0 if wagehigh ==.
*有时候我们在生成变量时可以加上一定条件,例如如果一个样本工资超过3,我们就定义它的变量wagehigh 的取值为1,否则为0。
*注意是两个等号
drop if read<40
drop schtyp
*drop命令去掉过程中的暂用的变量,以方便我们浏览数据和重新定义变量
count if wage<100
count if wage<10
*我们可以用“keep”或“drop”命令来删除一些样本,在删除之前,我们需要了解删除带来的影响,则可以用“count”命令来了解样本取值的情况。
*Creating dummy variables
*可以用“sort”和“list”命令来了解数据分布的细节
sort prgtype
*排序
xi, prefix() i.prgtype
*
sort wage
list wage in 50/70
*工资值从小到大排列在第50到70的样本的工资值。
keep if wage<100
drop if wage>=100

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。