stata语言--688IT编程网

STATA COMMAND

――根据劳伦斯·汉密尔顿《应用STATA做统计分析》前六章总结

第一章：Stata软件与Stata的资源

第二章：数据管理

第三章：制图

第四章：概要统计及交互表

第五章：方差分析和其他比较方法

第六章：线性回归分析

第一章stata软件与stata的资源

【命令范式】

use () 使用文件

log using () 打开一个用于输出日志的“log”文件

summarize()显示变量的概要统计指示的计算结果

describe() 数据简要描述

help帮助

第二章数据管理

【命令范式】

append using olddata 读取数据集olddata.dta，然后将其所有观测值加到当前内存中

save newdata,replace将这一合并数据存为新文件

browse打开表格化的数据浏览器来查看数据

browse boats men if year>1980

compress自动将所有变量转换为最有效率的存储类型

save filename,replace 将其永久化

drawnorm z1 z2 ,n(500) 创建人工数据集，包含从独立的标准正态分布中抽取的500个观测案例和2个随机变量z1,z2

dropmiss 自动删除内存数据中任何在每个观测案例上包含缺失值的变量

dropmiss,obs 将从内存中删除在每个变量上包含缺失值的任何观测案例

edit 打开表格化数据编辑器

encode price ,gen(numvar) 基于字符型（非数量型）变量price，新建一个有标签的数量型变量，名为numvar

edit z1 z2 打开数据编辑器时，只显示z1,z2两个变量，且按该顺序

format price %8.2f为数值型变量price建立一种固定化（f）的显示格式，8列宽，小数点后显示两位数

genarate newvar=(x+y)/100建立新变量

infile x y z using data.raw 读入一个名为data.raw的ASCII，其中包括3个变量x,y,z

list x y z in 5/10按当前顺序列举第5－10的观测案例

merge id using olddata 读入以前所存的数据集olddata.dta，并将其中的观测与内存中的具有同样id的观测案例加以匹配

mvdecode var3-var10,mv(97=.\98=.a\99=.b)针对变量var3-var10，将数值为97，98，99的重新编码为缺失值

replace oldvar=10*oldvar 将oldvar的原值扩大100倍后再取值

sample 10将观测案例只随机选取10%样本留下

sample 10,count随机留取10个随机样本

save newfile 存为新数据文件newfile.dta

save newfile,replace存为新数据文件并覆盖原文件

save,replace直接覆盖原文件

set memory 2g,permanently 为stata数据分配2g内存

sort x 将数据从小到大处理，缺失值被作为最大的数处理

tabulate x if y >90 只对y>90的观测案例输出x的频数表

use oldfile,clear不保存当前数据，直接打开其他数据

rename var2 pop 将var2重命名为pop

label variable pop "population"为变量pop建立相应标签

correlate x y z 为x,y,z进行简单相关性处理

order x y z 对变量进行排序

list in 1/10 列出第1至第10条观测案例－4表示倒数第4个字母l表示最后一个观测值

例：summarize if place!="Canada"

list if var1>a | (var2<b & var3<=c)

list var1<. 排除缺失值

符号“＝＝”、“！＝”用于字符型数值

missing(var1,var2)==0代表非缺失值

drop var1 放弃变量var1

drop in 6 放弃第6个观测值

drop in 10/13 放弃10至13四个观测值

keep price 仅保留变量price

例：drop if place =="Canada" | pop<100

replace age =2008-born if age >=. | age<=2008-born

tab var1 为变量var1列表

nolabel 可作后缀，要求不含取值标签

【使用函数】

abs(x) 绝对值

acos(x) 反余弦函数

exp(x) 指数函数

ln(x) 自然对数

log2(x) 以2为底的对数

round(x) 四舍五入

round(x,y) 按y的单位对x四舍五入

sign(x) 符号函数：当x<0时为－1，当x=0时为0，当x>0时为+1

sqrt(x) 平方根函数

sum(x) 返回x的移动合计，将缺失值作为0对待

help density function 概率函数清单及定义、参数等细节。

help string functions 查看字符串变量的完整清单

display 执行计算并输出结果(display 2+9)

egen表示是对generate命令的扩展

egen var1=std(x)建立新变量var1是为x的标准差

egen var2=rowmean(x,y,z,w)建立新变量var2是为x,y,z,w四个变量上的忽略任何缺失值的行平均值

egen var3=rowtotal(x,y,z)建立新变量var3是为x,y,z四个变量合计，并将缺失值视为零egen var4=rank(x) 建立新变量var4，保持着与x取值相一致的排序。即为x进行了排序，最大值为1

encode var1,gen(var2) 根据字符型变量var1创建数值型变量var2

decode var1,gen(var2)根据数值型变量var1创建字符型变量var2

数值型变量在执行带有“nolabel”的命令时，会被当作数值0，1或1，2，3.……处理。weight的所有形式

为了将字符型转换成相对应的数字，可以使用real函数：generate var1=real(var2),var2属于数值型变量

tabulate 制表

tabulate type, generate(type) 为type自动创建了虚拟变量

list type type1-type3可查看

generate caseID=_n创建新变量，使其值等于前面已经排序过的每一条观测案例的序号display var[6]显示变量var的第六条观测案例

generate difprice=price-price[_n-1]定义新变量，使其等于自前一天来的价格变化

如何导入其他程序的数据：使用专门的软件，Stat/Transfer

xpose,clear varname对原数据进行转置，varname可在转置后的数据中创建一个附加的变量，用以包含作为字符串的原始变量名

Stata接受四种加权类型：

aweight分析权数，用在加权最小二乘回归以及类似的估计程序中

fweight 频数权数，用以对重复观测案例计数，频数权数必须是整数

iweight重要性权数，但是“重要性”由用户自己界定

pweight 概率或抽样权数，与一个观测案例根据抽样策略被选中的概率的倒数成比例

set more off要求持续翻屏直到结束

第三章制图

【命令范式】：

histogram y, frequency 画出变量y的直方图，频数显示在纵轴上

histogram y, start(0) width(10) norm fraction x轴以0处为起点，画出变量y的直方图，条宽度为10。根据样本平均数和标准差添加正态曲线，并在纵轴上显示出小数形式的数据频率。histogram y, by(x,total) percent 在一幅图中，对x每个取值画出y的各个直方图，同时画出样本总体的总直方图。

graph twoway scatter y x 显示y对x的基本双变量散点图

graph twoway lfit y x || scatter y x 通过叠并两两幅twoway 图形将y对x的线性回归加以图形化：即回归线图和y对x的菜点图

graph twoway scatter y x, xlabel(0(10)100) ylabel(-3(1)6, horizontal)建构y对x的散点图，并在x轴的0，

1，2，…，100处添加标签，在y轴的－3，－2，…，6处添加标签，标签为水平放置而不是默认的垂直放置。

graph twoway scatter y x, mlabel(country) 构建y对x的散点图，并且数据点标注变量country 的相应取值。

graph twoway scatter y x1,by(x2)在一幅图中，对x2的每一取值画出y对x1的散点图graph twoway scatter y x1 [fweight = population], msymbol(oh) 画出y对x1的散点图。标记符号为中空的圆圈，其大小与频数权数变量population成比例

graph twoway connected y time y对time的基本时间标绘图。显示的数据点由线段连接起来。

要想显示线段而不出现数据点标志（marker），就用line来代替connected。

graph twoway line y1 y2 time 画出具有相同量度的两个y变量对名为time的x变量的时间标绘图。

graph twoway line y1 time, yaxis(1) || line y2 time, yaxis(2) 画出具有不同量度的两个变量的时间曲线，并将它们叠并在同一曲线标绘图内。yaxis(1) 指定左边的y轴按y1设置量度，而yaxis(2)指定右边的y轴按y2设置量度

graph matrix x1 x2 x3 x4 y 建构一个散点图矩阵，显示列出变量之间所有可能的散点图对。graph box y1 y2 y3 构建y1,y2,y3的箱线图

graph box y, over (x) yline(23) 对x的每一取值建构y的箱线图，并在y=23处画一条水平线graph pie a b c画一个饼图，其中的每块表明了变量a,b,c的相对量。这些变量必须具有相同的单位。

graph bar (sum) a b c 以条形图中并排的条显示变量a,b,c各自的合计。要想得到平均数而不是合计，则使用graph bar (mean) a b c

graph bar (mean) a, over(x) 画出在变量x每一取值处变量a的平均数的条形图

graph bar (asis) a b c, over(x) stack 画出变量a,b,c的条形图，图中变量a,b,c的值在变量x 的每一取值处层叠起来。

graph dot (median) y,over(x)画一个点图，沿着水平刻度在x的每一取值水平所对应的y的中位数处打点。

qnorm y 画出一幅分位－正态标绘图（正态概率图），显示y的分位数与对应的正态分布的分位数。

rchart x1 x2 x3 x4, connect(1) 建构一幅质量控制的R图，图中画出了变量x1…x4的取值范围。

【直方图】：

histogram college, frequency title(“figure1”) xlabel(12(2)18) ylabel(0(2)12) ytick(1(2)14) start(12) width(2) addlabel norm gap(15) bin(#) by(region, total)

注释：xlabel/ylabel 表示x、y轴上标注的数值

ytick 表示y轴的标注的点

start 表示起始值

width 表示条宽

gap 条间隙

addlabels 要求标注直方条的高度

norm 基于样本平均数和标准差，在直方图上添加一条正态曲线。

bin(#) 设定所要画的直方条的条数

discrete 设定离散数据，要求x的每个取值对应着一个直方条

percent 在纵轴上显示百分比

kdensity 在直方图上添加内核密度的估计值。

by(region, total ) 可以得到分别对应region每个取值的直方图。

【散点图】：

graph twoway scatter y x 画出y-纵轴，x-横轴的散点图

graph twoway scatter waste metro if region==1 [fweight=population], msymbol(oh) mcolor(purlple) mlabel(state) ylabel(,format(%3.0f))

fweight 表示为population添加权重，通过点的大小表现出来

688IT编程网

stata语言

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型验证正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

688IT编程网

stata语言

发表评论

推荐文章

mongodb中match多个条件

纯数字正则表达式

zipkin tagquery用法

excel匹配正则 -回复

re正则匹配之findall

热门文章

js 数值型 验证 正则

oracle模糊查询正则

符合ca91的社会信用代码的正则表达式

C#中使用正则表达式校验输入的是否为英文字母【转载自】

Java正则表达式验证至少6位表达式中至少包含数字大小写字母中的一种

强密码校验正则

hive正则表达式解析

p开头的正则表达式

思源笔记正则表达

用正则表达式限制文本框只能输入数字,小数点,英文字母,汉字等各类代 ...

Powerquery分离数字字母汉字

php+正则将字符串中的字母数字和中文分割

前端密码的正则表达式

vue 正则表达式 function 开头 中文字母数字 (结尾

el-input 英文名称的正则

32个字符正则

四位英文和数字 正则

字母正则匹配中文规则

8-14位字母、数字或符号组合正则

长度不小于4的正则表达式

最新文章

纯数字正则表达式

zipkin tagquery用法

1-4096的整数正则表达式

正则10-360之间的整数

验证整数的正则表达式

正则匹配整数

标签列表

js 数值型验证正则

vue 正则表达式 function 开头中文字母数字 (结尾

四位英文和数字正则