盒形图(box plot)
又名:盒形-虚线图( box-and-whisker plot)
概述
盒形图实际上是以图形来概括频数分布的最重要的统计特征,以便更容易地理解和对比数据。从图中可以看到数据下降的位置及分布情况。盒形图是一个非常有用的工具,因为其绘制简便且提供大量的信息。
适用场合
·当分析或交流数据的总体特征而不是数据细节时;
·当对比两组或更多数据时;
·当没有足够的数据做直方图时;
·概括另一张图代表的数据时,例如控制图或趋势图。
实施步骤
1按从小到大的顺序列出所有的数值,把所有数值的个数记为n。按顺序这样排号:X1是最小的数,X2是次小的数,直到最大的数Xn。
2中位数:把数据分成两半,到中位数——一半数值大于它、一半数值小于它的那个点。
·如果整个数值的个数(n)是奇数:中位数就是中间的那个。从一端数到第(n+1)/2个数。
中位数=X(n+1)/2
·如果整个数值的个数(n)是偶数:中位数是中间两个数的均值。从一端数到第n/2和n/2+1个数,求这两个数的均值:
中位数=[Xn/2 +X n/2+1]/2
3四分位数( Hinges):把数据分为四个部分。到四分位数——一半数据的中位数。
·如果整个数值的个数是偶数,中位数即是Xn/2和X n/2+1的均值。按照步骤2再出从1到Xn/2的这些数值的中位数,这就是第1四分位数。
·如果整个数值的个数是奇数,中位数是X(n+1)/2。按照步骤2再出从1到中位数这些数值的中位数。这就是第1四分位数。
按照相同的方法在较大的数值部分到第3四分位数。
4四分位距(H-spread):计算两个分位数之间的距离,又叫四分位距:
四分位距=第3四分位数-第1四分位数
5内部范围(Inner fences):区分属于特定分布和分布之外的数值。内部范围的上限处在高于第3四分位数1.5倍四分位距的位置,下限则处在低于第1四分位数1.5倍四分位距的位置。
内部上限=第3四分位数+1.5×四分位距
内部下限=第1四分位数-l 5×四分位距
6外部范围(Outer fenccs):处在该范围的数据远远在分布之外,很值得特别注意。外部范围的上限是处在高于内部上限1.5倍四分位距的位置,下限则处在低于内部下限1.5倍四分位距的位置。
外部上限=内部上限+1.5×四分位距
外部下限=内部下限-1.5×四分位距
7画盒形图。首先画一条水平轴,根据数据的范围选择合适的尺度。
·以四分位数值为边界画一个盒子;
·在盒子上中位数的位置画一条线;
·在每个内部范围处画一条线;
·从盒子边界到内部范围中的第一个数之间画一条虚线;
·在每个值处画一条垂线;
·画一个小圈代表任何出现在内部范围之外但在外部范围之内的异常值;
·画两个圈代表出现在外部范围之外的数值点。
8如果对比几组数据,重复进行分析一组数据的步骤。
9分析这个图。寻:
·中位数的位置;
·数据的分布:四分位数和范围距中位数多远;
·分布的对称性;
·异常点的存在。
示例
假设有两个保龄球队,分别是复仇队( avengers)和公牛犬队(bulldogs),图表5.1l中显示的是他们的得分,比较一下,哪个队更好呢?
1分数已经按从小到大的顺序排好,每组有14个得分,因此n=14。
2中位数:因为这里有偶数个得分,所以中位数是中间两个数的均值。我们必须从一端数到第n/2和n/2十1个数。
n/2=14/2=7,n/2+l=8
在每组中数出第7个和第8个得分,并求它们的均值。
中位数A=(149+150)/2=149. 5
中位数B= (155+159)/2=157
3四分位数:我们必须到两个中位数,一个是从第1个数到第7个数的中位
数,另一个是从第8个到第14个数的中位数。一半是7个值,所以是奇数类,因此真
接从一端数到第(7+1)/2=4个数。
A的第1四分位数=142 A的第3四分位数=160
B的第1四分位数=152 B的第3四分位数=163
4四分位距
四分位距=第3四分位数第-1四分位数
A的四分位距=160-142=18
B的四分位距=163-152=11
5内部范围
内部上限=第3四分位数+1.5×四分位距
A的内部上限=160十1.5×18=160+27=187
B的内部上限=163+1.5×11=163+16. 5=179.5
内部下限=第1四分位数-1.5×四分位距
A的内部下限=142-27=115
画直方图的四个步骤B的内部下限=152-16.5 =135.5
6外部范围
外部上限=内部上限+l.5×四分位距
A的外部上限=187+27=214
B的外部上限=179. 5+16.5=196
外部下限=内部下限-1.5×四分位距
A的外部下限=115-27=88
B的外部下限=135. 5-16.5=119
图表5.12是两队得分的盒形图。可以看出,复仇队有一个明星队员,公牛犬队
右一个技术差的队员,而对于总体来说,公牛犬队经常得高分,比复仇队的成绩稳定。
方法演变
盒形图是由约翰·W·丢克(John W. Tukey)最早创建的。目前很多盒形图的计算、画法和使用都是从这里演变过来的。不管什么时候你使用基本盒形图的演变时,在分位数外画上实线
以表明你不再遵守丢克的规则。一些演变如下所示:
·简单盒形图(Simple box plot):在此图中,不再计算和画那些范围和异常值,只是从盒子的边界画到最大的数值和最小的数值。
·修改的盒形图(Modified box plot):计算所有数值的算术平均值,并在盒形图上用一点来代表它。这个平均值越接近中位数,则分布就越对称。
·修改宽度的盒形图(Modified-width box plot):当使用两个或两个以上的盒形图对比几组数据时,盒子的宽度要与数据样本大小成比例。
·可以在盒形图上画括号代表95%的置信水平。
·魔鬼盒形图或盒形控制图(Ghost box plot or box-plot control chart):—个盒形图可以采用点线直接画在控制图上,或画在用个别点概括整个数据的图上。当几个图代表相连续数据的子组时,这种演变是非常有用的。例如,在一个过程改变之前的15个数据点中间画一个盒形控制图,在改变之后的15个数据点中间画另一个盒形控制图。
END
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论