统计总简答题
1.直⽅图与条形图有何区别?
1. 条形图是⽤条形的长度(横置时)表⽰各类别频数的多少,其宽度(表⽰类别)则是固定的。
2. 直⽅图是⽤⾯积表⽰各组频数的多少,矩形的⾼度表⽰每⼀组的频数或百分⽐,
宽度则表⽰各组的组距,其⾼度与宽度均有意义。
3. 直⽅图的各矩形通常是连续排列,条形图则是分开排列。
4. 条形图主要⽤于展⽰分类数据,直⽅图则主要⽤于展⽰数值型数据。
2.什么是统计学?
是收集、处理、分析、解释数据并从数据中得出结论的科学。
3.解释描述统计和推断统计?
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计⽅法。推断统
计是研究如何利⽤样本数据来推断总体特征的统计⽅法。如⼈⼝特征统计就是推断统计。
4.简述众数、中位数和平均数的特点和应⽤场合
答:众数是⼀组数据中出现次数最多的变量值,⽤M 0 表⽰。它不受极端值影响,具有不唯⼀性。众数主要⽤于分类数据的集中趋势,当然也适⽤顺序数据和数值型数据。数据分布偏斜程度较⼤时应⽤。
中位数是⼀组数据排序后处于中间位置上的变量值,⽤M e 表⽰,也不受极端值影响。它将全部数据等分成两部分,⼀部分数据⽐中位数⼤,⼀部分⽐中位数⼩。主要⽤于测度顺序数据的集中趋势,当然也适⽤于数值型数据,但不适⽤于分类数据。数据分布偏斜程度较⼤时应⽤。
平均数是⼀组数据相加后除以数据的个数得到的结果,是集中趋势的最主要测度值。它
易受极端值影响,数学性质优良。主要适⽤于数值型数据,⽽不适⽤于分类数据和顺序数据。数据对称分布或接近对称分布时应⽤。
简洁答案:
答:众数是⼀组数据中出现次数最多的变量值。主要⽤于测度分类数据的集中趋势,
也适⽤于作为顺序数据以及数值型数据集中趋势的测度值。⼀般情况下,只有在数
据量较⼤的情况下,众数才有意义。
中位数是⼀组数据排序后处于中间位置上的变量值,主要⽤于测度顺序数据当
然也适⽤于作为数值型数据的集中趋势,但不适⽤于分类数据。
平均数是⼀组数据相加后除以数据的个数得到的结果,主要适⽤于数值型数据,
⽽不适⽤于分类和顺序数据。
5.为什么要计算离散系数?与⽅差的区别
答:离散系数是⼀组数据的标准差与其相应的平均数之⽐。是对数据相对离散程度的测度,消除了数据⽔平⾼低和计量单位的影响,主要⽤于对不同组别数据离散程度的⽐较。离散系数⼤,说明数据的离散程度也⼤;离散系数⼩,说明数据的离散程度也⼩。
6.饼图和环形图有什么区别?
环形图中间有⼀个“空洞”,每个样本⽤⼀个环来表⽰,样本中的每⼀部分数据⽤
环中的⼀段表⽰。因此环形图可显⽰多个样本各部分所占的相应⽐例,从⽽有利于构成
的⽐较研究。
7.茎叶图与直⽅图相⽐有什么优点?它们适⽤的场合是什么?
茎叶图类似于横置的直⽅图,与直⽅图相⽐,茎叶图既能给出数据的分布状况,⼜
能给出每⼀个原始数据,即保留了原始数据的信息。⽽直⽅图虽然能很好地显⽰数据的
分布,但不能保留原始的数值。在应⽤⽅⾯,直⽅图通常适⽤于⼤批量数据,茎叶图通
常适⽤于⼩批量数据。
8. 制作统计表应该注意哪⼏个问题?
⾸先,要合理安排统计表的结构;其次,表头⼀般应包括表号、总标题和表中数据
的单位等内容;再次,表中的上下两条横线⼀般⽤粗线,中间的其他线要⽤细线,这样
使⼈看起来清楚醒⽬。最后在使⽤统计表时,必要时可在表的下⽅加上注释,特别要注
意注明数据来源,以表⽰对他⼈劳动成果的尊重,以备读者查阅使⽤。
9.标准分数有哪些⽤途?
给出了⼀组数据中各数值的相对位置;并可以⽤它来判断⼀组数据是否有异常值。
在对多个不同量纲的变量进⾏处理时,常常需要对各变量进⾏标准化处理。
10. 为什么要计算离散系数?
对于平均数不同或计量单位不同的不同组别的变量值,是不能⽤标准差直接⽐较其
离散程度,为消除变量值⽔平⾼低和计量单位不同对离散程度测度值的影响,需要计算
离散系数。
11. 简述评价估计量好坏的标准?
⽆偏性,指估计量抽样分布的数学期望等于被估计的总体参数;有效性,指对同⼀
参数总体的两个⽆偏估计量,有更⼩标准的估计量更有效;⼀致性,随样本量的增⼤,
直方图与条形图有何区别点估计量的值越来越接近被估计总体的参数。
12.Za/2 δ/ √(n) 的含义是什么?
Za/2 δ/√(n) 是估计总体均值时的估计误差。A 是事先所确定的⼀个概率值,也被
称为风险值,它是总体均值不包括在置信区间的概率,Za/2 是标准正态分布上侧⾯积
为a/2 时的Z 值
13. 数据的预处理包括哪些内容?
数据的与处理是在对数据分类或分组之前所做的必要处理,包括数据的审核、筛选、
排序等。
14. 什么是假设检验中的两类错误?
⼀类错误是原假设H0 为真却被我们拒绝了,犯这种错误的概率⽤a (阿尔法)表⽰,也称a错误或弃真错误;另⼀类错误是原假设为伪我们却没有拒绝,犯这种错误的概率⽤β表⽰,所以也称β错误或取伪错误。
15.假设检验依据的基本原理是什么?
它的基本思想可以⽤⼩概率原理来解释.所谓⼩概率原理,就是认为⼩概率事件在⼀
次试验中是⼏乎不可能发⽣的.也就是说,对总体的某个假设是真实的,那么不利于或不
能⽀持这⼀假设的事件A 在⼀次试验中是⼏乎不可能发⼀的;要是在⼀次试验中事件A 竟然发⽣了,我们就有理由怀疑这⼀假设的真实性,拒绝这⼀假设.
16. ⼀元线性回归模型中有哪些基本的假定?
因变量y 与⾃变量x之间具有线性关系;在重复抽样中,⾃变量x的取值是固定的,
即假定x是⾮随机的;误差项ε是⼀个期望值为0 的随机变量,即E(ε)=0;对于所有的x 值,ε的⽅差&2 都相同;误差项ε是⼀个服从正态分布的随机变量。
17. 解释总平⽅和、回归平⽅合、残差平⽅和的含义,并说明它们之间的关系。(具体符号书中修改)
对⼀个具体的观测值来说,变差的⼤⼩可以⽤实际观测值y 与其均差来表⽰,⽽n
次观察值的总变差可由这些离差的平⽅和来表⽰,称为总平⽅和(SST)。由于⾃变量x 的变化引起的y 的变化,⽽其平⽅和反映了Y的总变差中由于x 与y 之间的线性关系因其的y 的变化部分,它是可以由回
归直线来解释的变差部分,称为回归平⽅和(SSR) 。除了x 对y眼的线性影响之外的其他因素对y 变差的作⽤,是不能由回归直线来解释的变差部分,称为残差平⽅和(SSE).关系:SST=SSR+SSE.
18. 简述判定系数的含义和作⽤?
判定系数是对估计的归回⽅程拟合优度的度量。判定系数R^2 测度了回归直线对观
测数据的拟合优度。取值范围【1,1】。越接近1,表明回归平⽅和占总平⽅和的⽐例越⼤,拟合程度越好,反之。
19.怎样评价回归分析的结果?
所估计的回归系数^β1 的符号是否与理论或事先预期相⼀致;如果理论上认为y 与
x 之间的关系不仅是正的,⽽且是统计上显著的,那么所建⽴的回归⽅程也应该如此;
回归⽅程多⼤程度上解释了因变量y取值的差异?考虑关于误差项ε的正态性假定是否
成⽴。
20.多元回归模型中有哪些基本的假定?
误差项ε是⼀个期望值为0 的随机变量,即E(ε)=0;对⾃变量x1,x2,, ,xk的所
有值,ε的⽅差&^2 都相同;误差项ε是⼀个服从正态分布的随机变量,且相互独⽴,
即ε~N(0,&^2)
21.解释多重判定系数和调整的多重判定系数的含义和作⽤?
是多元回归中的归回平⽅和占总平⽅和的⽐例,它是多元回归⽅程拟合优度的⼀个
统计量,反映了在因变量y 的变差中被估计的回归⽅程所解释的⽐例。为避免增加⾃变量⽽⾼估R^2,统计学家提出⽤样本量n 和⾃变量的个数k 去调整R^2,即调整的多重判定系数(Ra^2)。
22.简述时间序列的构成要素。
成分分为四种,即趋势---是时间序列在长时期内呈现出来的某种持续向上或持续向
下的变动(T)、季节性或者季节变动---是时间序列⼀年内重复出现的周期性波动(S),周期性或循环波动---时间序列中呈现出来的围绕长期趋势的⼀种波浪形或者振荡式变
动(C),随机性或不规则变动(I)。
①趋势是时间序列在长时期内呈现出来的某种持续向上或持续下降的变动,也
称长期趋势。
②季节性也称季节变动,它是时间序列在⼀年内重复出现的周期性波动。
③周期性也称循环波动,它是时间序列中呈现出来的围绕长期趋势的⼀种波浪
形或振荡变动。
④时间序列除去趋势、周期性和季节性之后的偶然性波动,称为随机性,也称
不规则波动。
23.简述平稳序列和⾮平稳序列的含义。
平稳序列是基本上不存在趋势的序列,这类序列中各观察值基本上在某个固定的⽔
平上波动,虽然在不同的时间段波动的程度不同,但并不存在某种规律,波动可以看成是随机的。⾮平稳序列是包含趋势、季节性或周期性的序列,它可能只含有其中的⼀种成分,也可能是⼏种成分的组合。
24.拉⽒指数与帕⽒指数各有什么特点?
拉⽒指数:计算综合指数时将作为权数的同度量因素固定在基期;帕⽒指数:计算
综合指数时将作为权数的同度量因素固定在报告期。
25.什么是指数体系,它有什么作⽤?
指数体系是指,⼀个总量往往可以分解成为若⼲个构成要素,其数量关系可以⽤指
标体系的形式表现出来。反映了总量指标与因素指标之间的相互关系,它们之间的这种联系同样可以表现为各指标指数之间的联系。
26.解释中⼼极限定理的含义
答:在抽样推断中,中⼼极限定理指出,不论总体服从何种分布,只要其数学期
望和⽅差存在,对总体进⾏重复抽样时,当样本容量充分⼤,样本均值趋近于正
态分布。中⼼极限定理为均值的抽样推断奠定了理论基础。
27.整抽样的优缺点是什么?
答:整抽样的优点:可以简化抽样框的编制。样本单元⽐较集中,实施调查便
利,且能节约费⽤。整抽样的缺点:当内具有⼀定的相似性,⽽不同之
间的差别⽐较⼤时,相同样本量下整抽样的抽样效率⽐简单随机抽样差,
抽样误差较⼤。
28.简述样本容量与置信⽔平、总体⽅差、允许误差的关系
答:以估计总体均值时样本容量的确定公式为例:
样本容量与置信⽔平成正⽐、与总体⽅差成正⽐、与允许误差成反⽐。
29. 理解原假设与备择假设的含义,并归纳常见的⼏种建⽴原假设与备择假设的原则.答:原假设通常是研究者想收集证据予以反对的假设;⽽备择假设通常是研究者
想收集证据予以⽀持的假设。建⽴两个假设的原则有:
(1)原假设和备择假设是⼀个完备事件组。
(2)⼀般先确定备择假设。再确定
原假设。(3)等号“=”总是放在原假设上。(4)假设的确定带有⼀定的主观⾊
彩。(5)假设检验的⽬的主要是收集证据来拒绝原假设。
30.第⼀类错误和第⼆类错误分别是指什么?它们发⽣的概率⼤⼩之间存在怎样的关系?答:第I 类错误指,当原假设为真时,作出拒绝原假设所犯的错误,其概率为α。
第II 类错误指当原假设为假时,作出接受原假设所犯的错误,其概率为β。在
其他条件不变时,α增⼤,β减⼩;β增⼤,α减⼩。
详细答案:
第Ⅰ类错误原假设为正确时拒绝原假设所犯的错误,第Ⅰ类错误的概率记为α,被称为
显著性⽔平。
原假设是错误的却没拒绝原假设,这时所犯的错误称为第II 类错误,犯第Ⅱ类错误的概率记为β,因此也成为β错误。
假设检验中犯的第I 类错误的概率也称为显著性⽔平,记为α,它是⼈们事先指定的犯
第I 类错误概率的最⼤允许值。显著性⽔平α越⼩,犯第I 类错误的可能性⾃然越⼩,但犯第II 类错误的可能性则随之增⼤。反之相反。
31. 什么是显著性⽔平?它对于假设检验决策的意义是什么?
答:假设检验中犯第⼀类错误的概率被称为显著性⽔平。显著性⽔平通常是⼈们
事先给出的⼀个值,⽤于检验结果的可靠性度量,但确定了显著性⽔平等于控制
了犯第⼀错误的概率,但犯第⼆类错误的概率却是不确定的,因此作出“拒绝原
假设”的结论,其可靠性是确定的,但作出“不拒绝原假设”的结论,其可靠性
是难以控制的。
32. 什么是p 值?p 值检验和统计量检验有什么不同?
答:p 值是当原假设为真时,检验统计量⼩于或等于根据实际观测样本数据计算
得到的检验统计量值的概率。P值常常作为观察到的数据与原假设不⼀致程度的
度量。统计量检验采⽤事先确定显著性⽔平α,来控制犯第⼀类错误的上限,p
值可以有效地补充α提供地关于检验可靠性的有限信息。p值检验的优点在于,它提供了更多的信息,让⼈们可以选择⼀定的⽔平来评估结果是否具有统计上的显著性。
33. 什么是统计上的显著性?
答:⼀项检验在统计上是显著的(拒绝原假设),是指这样的(样本)结果不是
偶然得到的,或者说,不是靠机遇能够得到的。显著性的意义在于“⾮偶然的。
34.相关分析与回归分析的区别与联系是什么?
答:相关与回归分析是研究变量之间不确定性统计关系的重要⽅法,相关分析主
要是判断两个或两个以上变量之间是否存在相关关系,并分析变量间相关关系的
形态和程度。回归分析主要是对存在相关关系的现象间数量变化的规律性作出测
度。但它们在研究⽬的和对变量的处理上有明显区别。它们均是统计⽅法,不能
揭⽰现象之间的本质关系。
35.为什么在多元回归中要对可决系数进⾏修正?
答:在样本容量⼀定下,随着模型中⾃变量个数的增加,可决系数
R2会随之增加,模型的拟合程度上升,但⾃由度会损失,从⽽降低推断的精度,因此需⽤⾃由度来修正可决系数,⽤修正的可决系数来判断增加⾃变量的合适性。
36.在多元线性回归中,对参数作了t 检验后为什么还要作⽅差分析和F 检验?
答:t 检验仅是对单个系数的显著性进⾏检验,由于⾃变量之间存在着较为复杂
的关系,因此有必要对回归系数进⾏整体检验,⽅差分析和F检验就是对回归⽅

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。