1.4 举例说明分类变量、顺序变量和数值变量。(P6)
分类变量:“性别”是“男”或“女”。
顺序变量:“考试成绩按等级”分为优、良、中、及格、不及格。
数值变量:“企业销售额”。
1.5★获得数据的概率抽样方法有哪些?(P6—7)
简单随机抽样、系统抽样、分层抽样、整抽样、多阶段抽样。
2.2★直方图与条形图有何区别?(P19)
首先,条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。最后,条形图主要用于展示定性数据,而直方图则主要用于展示定量数据。(补:直方图:面积判断;条形图:高矮判断)
2.3 饼图和环形图有什么不同? (P15-17 )
第一,饼图是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各类别频数占全部频数的比例,对于研究结构性问题十分有用。环形图中间有一个“空洞”,每个样本用一个环来表示,样本中每一类别的频数比例用环中的一段表示。
第二,简单的饼图只能显示一个样本各类别频数所占的比例,而环形图则可以同时绘制多个总体或样本的数据系列,每一个总体或样本的数据系列为一个环。因此环形图可显示多个样本各类别频数所占的相应比例,从而有利于构成的比较研究。
2.4 茎叶图与直方图相比有什么优点?它们的应用场合是什么?(P19)
茎叶图是由“茎”和“叶”两部分组成的、反映原始数据分布的图形。其图形是由数字组成的。通过茎叶图,可以看数据的分布形状及数据的离散状况。与直方图相比,茎叶图既能给出数据的分布状况,又能给出一个原始数值,即保留了原始数据的信息。而直方图不能给出原始数值。
在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据
3.1 一组数据的分布特征可以从哪几个方面进行描述?(P36)
数据的水平、数据的差异、分布的形状。
3.2 ★说明平均数、中位数和众数的特点及应用场合。
平均数(1)易受极端值影响
(2)数据对称分布或接近对称分布时,代表性较好
(3)数学性质优良,实际中最常用
中位数(1)不受极端值影响
(2)数据分布偏斜程度较大时,代表性较好
众数(1)不受极端值影响
(2)数据分布偏斜程度较大且有明显峰值时,代表性较好
(3)具有不唯一性
5.1 ★说明区间估计的基本原理。(P70)
区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。
5.7 解释独立样本和配对样本的含义。(P89)
独立样本:一个样本中的元素与另一个样本中的元素相互独立。
配对样本:一个样本中的数据与另一个样本中的数据相互对应。
5.9★简述样本量与置信水平、总体方差、估计误差的关系。(P87)
样本量与置信水平成正比,在其他条件不便的情况下,置信水平越大,所需的样本量也就越大;样本量与总体方差成正比,总体的差异越大,所要求的样本量也越大;样本量与估计误差的平方成反比,即允许的估计误差的平方越大,所需的样本量就越小。
6.3 ★怎样理解显著性水平?(P97)
假设检验中犯的第Ⅰ类错误的概率也称为显著性水平,记为。是人们事先指定的犯第Ⅰ类错误概率的最大允许值。越小,犯第Ⅰ类错误的可能性越小,犯第Ⅱ类错误的可能性则随之增大。一般情况下,人们认为犯的第Ⅰ类错误的后果更严重,因此通常取一个较小的值(一般)。
6.5 ★什么是值?利用值进行检验和利用统计量进行检验有什么不同?(P100)
如果原假设正确,所得到的样本结果会像实际观测结果那么极端或更极端的概率称为值。
值决策优于统计量决策,值决策提供了更多的信息。
根据统计量决策,如果拒绝原假设,也仅仅是知道犯错误的可能性是那么大,但究竟是多少却不知道。而值则是算出的犯第Ⅰ类错误的实际概率。
7.1 说明拟合优度检验和独立性检验的用途。(P122、P126)
拟合优度检验:只研究一个分类变量时,可利用检验来判断各类别的观察频数分布与某一期望频数是否一致。
独立性检验:是对列联表中的两个分类变量进行分析,通常是判断两个变量是否独立。
8.1 ★什么是方差分析?它研究的是什么?(P134)
方差分析是分析分类自变量对数值因变量影响的一种统计方法。研究的是一个分类自变量对数值因变量的影响和两个分类自变量对数值因变量的影响。
8.3 ★说明误差分解的基本原理。(P136)
总误差 | 处理误差 | 随机误差 | ||
↓ | ↓ | ↙ | ↓ | |
总平方和 () | 处理平方和 () | 误差平方和 () | ||
9.2 ★简述相关系数的性质。(P167)
(1)取值范围在到之间。
(2)具有对称性。
(3)数值的大小与和的原点及尺度无关。
(4)仅是和间线性关系的一个度量,不能用于描述非线性关系。
(5)不一定意味着与一定有因果关系。
9.4 一元线性回归模型中有哪些基本的假定?(P170)
(1)正态性:。
(2)方差齐性:对于所有的值,的方差都相同。
(3)独立性:。
10.2 解释多重共线性的含义。(P196)
当回归模型中两个或两个以上的自变量彼此相关时,称回归模型中存在多重共线性。
什么是统计学?
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。统计分析数据所用的方法大体上可分为描述统计和推断统计两大类。
二项分布
二项分布是建立在伯努利试验基础上的。
正态分布
正态分布最初是由CF高斯作为描述误差相对频数分布的模型而提出来的。
离散系数
离散系数是一组数据的标准差与其相应的平均数之比,它消除了数据水平高低和计量单位对标准差大小的影响。
3.2 某银行为缩短顾客到银行办理业务等待的时间,准备采用两种排队方式进行试验。一种
是所有顾客都进入一个等待队列;另一种是顾客在3个业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:
5.5直方图与条形图有何区别 | 6.6 | 6.7 | 6.8 | 7.1 | 7.3 | 7.4 | 7.8 | 7.8 |
(1)计算第二种排队时间的平均数和标准差。
(2)比较两种排队方式等待时间的离散程度。
(3)如果让你选择一种排队方式,你会选择哪一种?试说明理由。
3.3 在某地区随机抽取120家企业,按利润额进行分组后结果如下:
按利润额分组(万元) | 企业数(个) |
300以下 | 19 |
300~400 | 30 |
400~500 | 42 |
500~600 | 18 |
600以上 | 11 |
合计 | 120 |
计算120家企业利润额的平均数和标准差(注:第一组和最后一组的组距按相邻组计算)。
3.4 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该位应试者哪一项测试更为理想?
说明在A项测试中该应试者比平均分数高出1个标准差,而在B项测试中只高出平均分数0.5个标准差,由于A项测试的标准化值高于B项测试,所以A项测试比较理想。
5.3 某大学为了解学生每天上网的时间,在全校学生中随机抽取36人,调查他们每天上网的时间(单位:小时),得到的数据如下:
3.3 | 3.1 | 6.2 | 5.8 | 2.3 | 4.1 | 5.4 | 4.5 | 3.2 |
4.4 | 2.0 | 5.4 | 2.6 | 6.4 | 1.8 | 3.5 | 5.7 | 2.3 |
2.1 | 1.9 | 1.2 | 5.1 | 4.3 | 4.2 | 3.6 | 0.8 | 1.5 |
4.7 | 1.4 | 1.2 | 2.9 | 3.5 | 2.4 | 0.5 | 3.6 | 2.5 |
求该校大学生平均上网时间的置信区间,置信水平分别为90%、95%和99%。
5.4 某居民小区共有居民500户,小区管理者准备采取一项新的供水设施,想了解居民是否赞成。采取重复抽样方法随机抽取了50户,其中有32户赞成,18户反对。
(1)求总体中赞成该项改革的户数比率的置信区间,置信水平为95%。
(2)如果小区管理者预计赞成的比率能达到80%,要求估计误差不超过10%。应抽取多少户进行调查?
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论