直方图和其他频率分布图(histogram and other frequency distributions)
直方图和其他频率分布图(histogram and other frequency distributior.s
    包括多边形图、茎叶图、点图、分位图、CDF图、累积多边形图。
概述
    频率分布表明了一组数据不同数值出现的频数。直方图是最常用的频率分布图,与条形图很相似,但是两者之问有些重要的区别。
    这部分也包含了其他的频率分布图。多边形图和直方图的形状一样,但是用线而不是条柱连接频率值;茎叶图通过运用单个数值作为数据点的标识来保存单个数值:点图是在一条垂线上用小圆圈表示每个数据点;分位图和累积点线图表示有多少测量值(或测量值的百分比)小于或等于每个值。
适用场合
    ·数据是数值型时;
    ·想弄清楚数据分布的形状;
    ·确定一个过程的输出是否近乎符合正态分布;
    ·分析一个过程是否满足顾客的要求;
    ·分析供应商的过程输出的分布情况;
    ·检查两个时间段内过程是否发生交化;
    ·确定两个或多个过程输出是否不同;
    ·将分布情况快速简单地表示出来。
    决策树(图表5. 68)有助于确定最适合于表示不同的数据和目的的图形。
实施步骤
构建
    1.从一个过程中搜集至少50个连续的数据点。如果没有那么多数据,就使用点图。
    2.用直方图计算表(参阅图表5.81)建立直方图。通过填写计算表确定组数,组距和组边界值。计算完步骤2的组距(W)后,判断并将其调整到一个方便计算的数比如,你可以将0.9调整到1.0W的小数位不能比图中数的小数位多。
    3.在图纸上画x轴和y轴。y轴表示数据出现的个数。用计算表中计算得到的L值在x轴标刻度。这些数值之差是组距。条柱间不要留空隙。
    4.对于每个数据,准确出其落入的组,并在该组上增加一个x或涂上一段条柱。如果数据刚好落在组限处,则将该数据记入其右侧的一组内。
频率分布直方图和条形图的区别分析
    1.在从直方图得到任何结论之前,保证所研究的时段内过程稳定。如果在直方图表示的时段内有任何异常情况发生,那么所分析的直方图的形状可能无效。
    2.分析直方图形状表示的意义。参阅一些典型形状及其意义的注意事项部分。
过程名称:           计算人员:            
数据日期:           制表日期:       
步骤1.确定组数
确定数据分组数。下面是一些经验估计,供参考。
数据个数    组数(B)
50        7
8
9
100      10               B          
              11
150          12
              13
200          14
步骤2.确定组距
数据范围=R=最大值-最小值
                                   
组距=WR÷B
    =              ÷                           
组距便于调整,组距不宜有太多小数位
    W             
步骤3.计算组限
    选择一个方便计算的L1作为第一个组的下边界,并且这个数要比数据中的最小
值略小。第二个组的下边界是L1+W,其余组的下边界依次加W
L1
L2
L3
L4
L5
L6
L7
L8
L9
L10
L11
L12
L13
L14
图表5.81直方图计算表
示例
    公牛犬保龄球队想提高他们在团队中的声望。队员决定研究一下他们上个月的成绩。55个保龄球成绩如下:
    103  107  111  115  115  118  119  121  122  124  124
    125  126  127  127  129  134  135  137  138  139  141
    142  144  145  146  147  148  148  149  150  151  152
    153  153  154  155  155  155  156  157  159  160  161
    163  163  165  165  167  170  172  176  177  183  198
    使用直方图计算表,估计B值为7。最大值为198,最小值为103,所以值的范围是:
R=最大值-最小值=19810395
组距是:  W =R÷B =95÷7=13. 6
保龄球分数没有小数点,所以组距也没有小数部分。13.6近似为14。因为14在计算时不方便,所以调整为15。选择第一个组的下边界为100,所以其他组的边界为:
    100+15 =115
    115+15=130,依此类推
    图表5. 82是他们画的直方图。从
图上看是双峰分布:一部分队员的成绩
是在100分左右,另一部分队员的成绩
150分左右。要提高整个球队的水
平,球员可以努力提高每个人的成绩使
整个直方图向右移动,或者集中精力提
高成绩偏低的队员的水平,减少分布范围,使团队整体具有一致性。
注意事项
·以下是几种典型的直方图形状及其意义:
  正态:一种最常见的形如钟形的正态分布(图表5. 83)。正态分布平均值左右两边的点发生的概率相等。但是要注意其他分布看起来和正态分布相似,我们可以用统计计算方法来证明正态分布,如正态概率图拟合优度检测。然而如果直方图的形状不一样,就可以证明分布不是正态的。
    不要让“正态”这个叫法迷惑你。很多过程的输出(或许很大一部分)不服从正态分布,但这并不意味着过程出错。例如,很多过程一侧都有限制条件,就导致偏态分布。即便这些分布不被称为正态,但我们可以称这些过程是正态的(意味着典型的)。
    偏态:偏态分布(图表5. 84)偏向一侧是因为限制条件阻止了平均值另一侧的结果。分布的峰由于限制条件而偏离中心,一段尾部延伸。比如,一项纯度比较高的产品的纯度分布肯定是偏态的,因为产品的纯度不可能超过100%。其他例子如:洞的直径不可能小于钻头的直径,打电话的时间不可能小于零。这些分布按尾部的方向而被称为右偏或左偏。图表5 84属于右偏。
  双峰:双峰分布(图表5. 85)的形状像双峰骆驼的后背,是不同分布的两个过程结果合并在一起得到的。比如,从两班操作中得到的生产数据如果每班生产服从不同的正态分布,则
结果可能是双峰图。分层就是为了检查这个问题。
    平顶:平顶分布(图表5.86)也叫多峰分布。由若干正态分布组合而成。因为图形有许多峰,顶点的分布看起来像平顶。
    边峰:边峰分布(矧表5. 87)除了一端尾部有一个高峰以外很像正态分布。一般这种情况由于构建直方图出错造成,比如把几个组合并到一起成为一个组,注明“大于……”。
   梳状:梳状分布(图表5. 88)的柱高低交错。这类分布常常是由于对数据四舍五人或构建直方图不正确造成的。比如,温度数据近似成0.2度而其直方图的组距是0.1度,此时直方图的形状就是梳状型。
   截尾或切心:截尾或切心分布(图表5.89)是一个正态分布去掉了尾部。供方生产的材料可能服从正态分布,但依靠检验将符合与不符合标准的产品分开。最后装货给顾客的符合标准的部分就成为切心。
    残尾:残尾分布(图表5.90)是缺少均值附近的部分。如果顾客接受了这种分布,那么肯定有人接受了切心部分。尽管顾客接受的部分在规定范围内.产品分成两组:一组靠近上规
定限,另一组靠近下规定限,但这些变异常常会导致顾客过程的变异。
    ·当数据是数值型时适合用直方图。如果数据是分类的(示值或序数的)则用条形图。条形图中条柱间可有空隙,直方图的条柱间相连也说明了数值刻度是连续的。
    ·依照根据陈旧数据作的直方图采取措施时要谨慎,因为数据收集后过程可能已经发生了变化。
    ·如果数据点很少,解释直方图要小心,任何少于50个数据得到的直方图都应经过严格推敲。
    ·对直方图形状的解释都只是理论上的,必须经过对过程直接观察的确认。
    ·直方图不能明确判断一个分布是正态分布,还有其他分布和正态分布形状相似。详情参阅“正态概率图”。
    ·如果过程稳定,直方图可以用来预测未来的情况。如果过程不稳定,直方图仅仅体现过去的情况。如果在直方图表示的时段内有任何异常情况发生,那么所分析的直方图只适用于那个时段。
    ·另外一种工具,盒形图可作为直方图的替代,用来描述一组数据最重要的特性,尤其当没有足够的数据作直方图时。参阅“盒形图”。
    ·有关构造清晰、实用的图的详情参阅“图形方法”。
多边形图【polygon chart
概述
    多边形图和直方图相似。不同的是:不是用条柱而是用点表示个数,用线连拉这些点,结果分布形状的轮廓是多边形。有时多边形图也被称为直方图,尤其当数据很多以致线条变得平滑时。
实施步骤
    除步骤4外,其他的和直方图的实施步骤相同:
    4.在x轴上每个区间的中点上方画一点,此点与y轴上代表适当个数的值相对应,在相邻点之间画直线,最外层的点与x轴上的上、下限点用直线连接。
示例
    图表5. 9l是公牛犬队保龄球分数的多边形图。
茎叶图( stem-and-leaf display)
概述
    茎叶图是直方图的一种,显示单
个数据值。它使用数据中最不显著的数字作为象征表示该数据在图中的情况。
实施步骤
    1.确定数据中变化的数字,从一组序列数据中左起选择23个最重要的数,最右边的位即为叶,左边的12位是茎。
    2在纸上画一条垂直的线,线的左边按从小到大的顺序写上茎的值。
    3.线的右边与茎相对应的位置写上这个数的叶的值,叶右边的数字不再使用。
    4在图表中写明图例以方便看图。
示例
    图表5. 92是公牛犬保龄球队分数的茎叶图。分数中只有右边两个数字在变化,但公牛队选择把左边数字写成两位(也可以是0),以便将来使用,并且他们认为所有的数字都是重要的。右边叶子是37等个位数,而其余的101l12等两位数字(十位和百位)则作为茎。第一行:103 7代表数值103107。虽然间距不样,但茎叶图也呈现出我们在直方图中看到的双峰状。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。