统计学原理数值型数据的整理与展⽰
数值型数据的整理与展⽰
数据分组
1. 组距分组 (要点)
将变量值的⼀个区间作为⼀组
适合于连续变量
适合于变量值较多的情况
需要遵循“不重不漏”的原则
可采⽤等距分组,也可采⽤不等距分组
2. 组距分组 (步骤)
(1)确定组数:组数的确定应以能够显⽰数据的分布特征和规律为⽬的。在实际分组时,组数⼀般为5 K 15
(2)确定组距:组距(Class Width)是⼀个组的上限与下限之差,可根据全部数据的最⼤值和最⼩值及所分的组数来确定,即 组距=( 最⼤值 - 最⼩值)÷ 组数
(3)统计出各组的频数并整理成频数分布表
3. 组距分组 (⼏个概念)
下限(lower limit) :⼀个组的最⼩值
上限(upper limit) :⼀个组的最⼤值
组距(class width) :上限与下限之差
组中值(class midpoint) :下限与上限之间的中点值
数值型数据的图⽰
分组数据——直⽅图和折线图
1. 分组数据—直⽅图 (histogram)
⽤于展⽰分组数据分布的⼀种图形
⽤矩形的宽度和⾼度来表⽰频数分布
本质上是⽤矩形的⾯积来表⽰频数分布
在直⾓坐标中,⽤横轴表⽰数据分组,纵轴表⽰频数或频率,各组与相应的频数就形成了⼀个矩形,即直⽅图
直⽅图与条形图的区别
条形图是⽤条形的长度(横置时)表⽰各类别频数的多少,其宽度(表⽰类别)则是固定的
直⽅图是⽤⾯积表⽰各组频数的多少,矩形的⾼度表⽰每⼀组的频数或百分⽐,宽度则表⽰各组的组距,其⾼度与宽度均有意义直⽅图的各矩形通常是连续排列,条形图则是分开排列
条形图主要⽤于展⽰分类数据,直⽅图则主要⽤于展⽰数值型数据
2. 未分组数据—茎叶图和箱线图
(1)未分组数据—茎叶图 (stem-and-leaf display)
⽤于显⽰未分组的原始数据的分布
由“茎”和“叶”两部分构成,其图形由数字组成
以该组数据的⾼位数值作树茎,低位数字作树叶
树叶上只保留最后⼀位数字
茎叶图类似于横置的直⽅图,但⼜有区别
直⽅图可观察⼀组数据的分布状况,但没有给出具体数值
茎叶图既能给出数据的分布状况,⼜能给出每⼀个原始数值,保留了原始数据的信息
直⽅图适⽤于⼤批量数据,茎叶图适⽤于⼩批量数据
(2)未分组数据—箱线图 (box plot)
⽤于显⽰未分组的原始数据的分布
由⼀组数据的5个特征值绘制⽽成,它由⼀个箱⼦和两条线段组成
绘制⽅法
⾸先出⼀组数据的5个特征值,即最⼤值、最⼩值、中位数Me和两个四分位数(下四分位数QL和上四分位数QU)
连接两个四分位数画出箱⼦,再将两个极值点与箱⼦相连接
该箱线图也称为Median/Quart./Range箱线图
3. 时间序列数据—线图 (line plot)
表⽰时间序列数据趋势的图形
时间⼀般绘在横轴,数据绘在纵轴
图形的长宽⽐例⼤致为10 : 7 ⼀般情况下,纵轴数据下端应从“0”开始,以便于⽐较。数据与“0”之间的间距过⼤时,可以采取折断的符号将纵轴折断
4.多变量数据的图⽰
(1)两个变量间的关系—⼆维散点图 (2D Scatterplots)
展⽰两个变量之间的关系
⽤横轴代表变量x,纵轴代表变量y,每组数据(xi,yi)在坐标系中⽤⼀个点表⽰,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的⼆维数据图
直方图与条形图有何区别(2)三个变量间的关系—⽓泡图 (bubble chart)
显⽰三个变量之间的关系
图中数据点的⼤⼩依赖于第三个变量
(3)多变量数据—雷达图 (radar chart)
也称为蜘蛛图(spider chart)
显⽰多个变量的图⽰⽅法
在显⽰或对⽐各变量的数值总和时⼗分有⽤
假定各变量的取值具有相同的正负号,总的绝对值与图形所围成的区域成正⽐
可⽤于研究多个样本之间的相似程度
雷达图的制作
设有n组样本S1,S2,… , Sn,每个样本测得P个变量X1,X2 ,… , XP,要绘制这P个变量的雷达图,其具体做法是
先做⼀个圆,然后将圆P等分,得到P个点,令这P个点分别对应P个变量,在将这P个点与圆⼼连线,得到P个幅射状的半径,这P 个半径分别作为P个变量的坐标轴,每个变量值的⼤⼩由半径上的点到圆⼼的距离表⽰
将同⼀样本的值在P个坐标上的点连线。这样,n个样本形成的n个多边形就是⼀个雷达图
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论