stata怎么判断是否存在异常值_使⽤stata软件识别异常值——
graphbox⽅法(原。。。
来源:Taotao Tu原创。
数据:《应⽤stata做统计分析》
⼤家好!今天给⼤家讲⼀讲如何使⽤stata软件中的graph box来识别异常点。
那么,什么是异常点呢? 异常点指的是和其它样本差别很⼤的点,这些异常点的出现往往意味着特殊情况的发⽣,通常会对我们的统计分析产⽣很⼤影响。因此,如何有效识别异常点成为了统计分析中的重要基础性⼯作。
1.今天我们使⽤ 《应⽤stata做统计分析》中的nations.dta数据进⾏例⼦讲解
⾸先,还是让我们看看数据⽂件包含哪些变量吧。
describe
2.异常值的初步甄别
那么,这些数据中,到底哪些可能会出现异常值呢? 让我⽤graph box图形来看⼀看。
graph box pop birth death chldmort infmort life food energy gnpcap gnpgro urban school1 school2 school3
图1
3. graph box图形的含义与异常点识别原则
注:第⼀个四分位数(Q1),也叫做25th percentile或者lower quartile; 第⼆个四分位数(Q2),也叫做中值或者50th percentile; 第三个四分位数(Q3),也叫做75th percentile或者upper quartile。
如图2所⽰,如果有样本落到 最⼩值(Q1-1.5*IQR)与最⼤值(Q3+1.5*IQR)区间之外,就可以判定为异常值。
从图1中可以发现,有好⼏个变量⾥⾯存在异常值的可能,它们分别是pop energy gnpcap gnpgro school1 school3变量,让我们进⼀步观察⼀下。
graph box pop energy gnpcap gnpgro school1 school3
看着这么多的异常值,我们在想,这些值究竟是哪些国家的样本呢?让我们来让这些国家现形吧。
4. 异常值样本的甄别与显⽰
如果我们对gnpcap变量(第3个变量)的异常点感兴趣,我们可以专门标注出gnpcap异常点所对应的国家
graph box pop energy gnpcap gnpgro school1 school3, marker(3, mlabel(country))
如果我们对energy变量(第2个变量)的异常点感兴趣,我们可以专门标注出energy异常点所对应的国家graph box pop energy gnpcap gnpgro school1 school3, marker(2, mlabel(country))
我们可以单独绘制energy变量的graph box图,从⽽异常值看得更清楚:
graph box energy, marker(1, mlabel(country))
从上图可以看到,加拿⼤、挪威、美国和瑞典 四个国家存在异常值。
如果我们喜欢将国家的标识放在圆点的左边,如何来处理呢? Stata制图处理起类似的问题可是⼩菜⼀碟。graph box energy, marker(1, mlabel(country) mlabpos(9))
mlabpos(#)中的#就是专门⽤来设置#点钟位置的。
如果我们觉得,国家标识的字体不够显眼,怎么办? 让我们来设置⼀下标识字体的颜⾊吧。stata怎么发音
graph box energy, marker(1, mlabel(country) mlabpos(9) mlabc(red))
红⾊字体看上去是不是很酷? 简⾔之,通过graph box绘图,我们就可以初步识别出可能存在的异常值。这个⽅法真的是简单⼜好使。好了,今天的介绍就到这⾥。后⾯有机会,我们再来讨论其它识别异常值的办法。
欢迎⼤家的关注!
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论