9.2用样本估计总体
【要点梳理】
要点一、总体取值规律的估计(频率分布直方图)
频率分布是指一个样本数据在各个小范围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.
1.步骤为:
(1)计算一组数据中最大值与最小值的差,即求极差
(2)决定组距与组数: 组距与组数的确定没有具体的标准,一般来说,数据分组的组数与样本容量有关,样本容量越大,所分组数越多.当样本容量不超过100时,按照数据的多少,常分为5~12组.
(3)将数据分组
(4)列频率分布表
(5)画频率分布直方图: 其中横轴表示数据,纵轴表示频率与组距的比.
2.意义:频率分布直方图中,每个小矩形的面积表示相应组的频率,所有小矩形的面积的总和等于1.
3.频率分布的估计:
频率分布是指各个小组数据在容量中所占比例的大小,可以用样本的频率分布估计总体的频率分布,频率分布表是反映样本的频率分布的表格.通过频率分布直方图和频率分布表可以看到样本的频率分布.
要点诠释:
频率分布直方图的特征:
1.从频率分布直方图可以清楚的看出数据分布的总体趋势.
2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有具体数据信息就被抹掉了.
3.当频率分布直方图的组数少,组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原始数据信息,当频率分布直方图的组数多,组距小时,保留了较多的原始数据信息,但由于场小长方形的较多,有时图形会变的非常不规则,不容易从中看出数据分布的特点
4.补充:
除频率分布直方图外,我们在初中还学习过条形图、扇形图、折线图、频数分布直方图等,不同的统计图在表示数据上有不同的特点,例如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势。
不同的统计图适用的数据类型也不同,例如条形图适用于描述离散型数据,直方图适用描述连续型数据等。
要点二、总体百分位数的估计
频率分布直方图和条形图的区别1.概念
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值。
2.步骤
可以通过下面的步骤计算一组n个数据的第P百分位数:
第一步,按从小到大排列原始数据。
第二步,计算i=np%,
第三步,若i不是整数,而大于i的比邻整数为j,则第p百分位数是j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数。
3.四分位数
我们在初中学过的中位数相当于第50百分位数,在实际应用中,除了中位数外,常用的分位数还有第25百分位数,第75百分位数,这三个分数把一组从小到大排列后的数据分成四等份,因此称为四分位数,其中第25百分位数也成为第一四分位数和下四分位数,第75百分位
数也成为第三四分位数和上四分位数等。
要点四、总体集中趋势的估计(众数、中位数与平均数)
1.众数
一组数据中出现次数最多的数据叫做众数.如果变量是分类的,用众数是很有必要的.例如班委会要作出一项决定,考察全班同学对它赞成与否就可以用众数.
2.中位数
将一组数据从小到大依次排列,把中间数据(或中间两数据的平均数)叫做中位数.中位数把样本数据分成了相同数目的两部分.
3.平均数
样本数据的算术平均数,即.
要点诠释:
1.由于众数仅能刻画某一数据出现的次数较多,中位数对极端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依赖这些数字特征来估计总体数字特征的准确性.
2. 一般地,对数值型数据(如用水量,身高,收入,产量等)集中趋势的描述可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述可以用众数。
要点四、总体离散程度的估计(标准差与方差)
1. 方差:S2=
2. 标准差:S=
3. 在实际问题中,总体平均数和总体标准差都是未知的,就像用样本平均数估计总体平均数
一样,通常我们也用样本标准差去估计总体标准差,在随机抽样中,样本标准差依赖于样本的选取,具有随机性。
要点诠释:
1.标准差刻画了数据的离散程度和波动幅度,标准差越大,数据的离散程度越大,标准差越小,数据的离散程度越小。
2.在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差.
【典型例题】
类型一:频率分布表、频率分布直方图
例1.(1)为了帮助班上的两名贫困生解决经济困难,班上的20名同学捐出了自己的零花钱,他们的捐款数(单位:元)如下:19,20,25,30,24,23,25,29,27,27,28,28,26,27,21,30,20,19,22,20.班主任老师准备将这组数据制成频率分布直方图,
以表彰他们的爱心.制图时先计算最大值与最小值的差是______,若取组距为2,则应分成________组;若第一组的起点定为18.5,则在[26.5,28.5)内的频数为________.
(2)将容量为100的某个样本数据拆分为10组,若前七组的频率之和为0.79,而剩下的三组中频率依次相差0.05,则剩下的三组中频率最大的一组的频率为________.
【答案】(1)11 6 5 (2)0.12
【解析】
(1)由题意知,极差为30-19=11;由于组距为2,则不是整数,所以取6组;捐款数落在[26.5,28.5)内的有27,27,28,28,27共5个,因此频数为5.
(2)设剩下的三组中频率最大的一组的频率为x,则另两组的频率分别为x-0.05,x-0.1.因为频率总和为1,所以有0.79+(x-0.05)+(x-0.1)+x=1,解得x=0.12,所以应填0.12.
【总结升华】此类题主要考查在应用频率分布来估计总体的过程中的相关计算问题,其中常用到的就是样本频率的计算:频率=,还要注意此公式的一些变形应用.
举一反三:
【变式1】如图是一容量为100的样本的频率分布直方图,试根据图形中的数据填空.
(1)样本数据落在[6,10)内的频率为________;
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论