统计学
1、什么是统计学
统计学是收集、处理、分析、解释数据并从数据中得出结论的科学
2、解释描述统计和推断统计
描述统计研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法
推断统计是研究如何利用样本数据来推断总体特征的统计方法
3、统计数据可分为哪几种类型?不同类型的数据各有什么特点?
按照所采用的计量尺度不同,可以将统计数据分为分类数据、顺序数据和数值型数据
特点:
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。
数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据。
按照统计数据的收集方法,可以将其分为观测数据和实验数据。
特点:
观测数据是通过调查或观测而收集到的数据,这类数据是在没有对事物人为控制条件下得到的,有关社会经济现象的统计数据几乎都是观测数据。
实验数据则是在实验中控制实验对象而收集到的数据。自然科学领域的大多数数据都为实验数据。
按照被描述的现象与时间关系,可以将其分为截面数据和时间序列数据。
特点:
截面数据是在相同或近似相同的时间点上收集的数据,这类数据通常是在不同空间上获得的,用来描述现象在某一时刻的变化情况。
时间序列数据是在不同时间收集到的数据,这列数据是按时间顺序收集得到的,用于所描述现象随时间变化的情况。
4、解释分类数据、顺序数据和数值型数据的含义。
分类数据是只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表述的。
顺序数据是只能归于某一有序类别的非数字型数据。顺序数据虽然也是类别,但这些类别是有序的。
数值型数据是按数字尺度测量的观察值,其结果表现为具体的数值。现实中所处理的大多数是数值型数据。
5、举例说明总体、样本、参数、统计量、变量这几个概念。
总体:是包含所研究的全部个体(数据)的集合,它通常由所研究的一些个体组成,如由多个企业构成的集合,多个居民户构成的集合等。
样本:是从总体中抽取的一部分元素的集合,构成样本的元素的数目称为样本量。如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。
参数:是用来描述总体特征的概括性数字度量,它是研究者想要了解的总体的某种特征值,是一个未知的常数。如总体平均数、总体标准差、总体比例等。
统计量:是用来描述样本特征的概括性数字度量,是已知的。如样本平均数、样本标准差、样本比例等。
变量:是说明现象某种特征的概念,其特点是从一次观察到下一次观察结果会呈现出的差别或变化。如商品销售额、受教育程度、产品的质量等级等。
6、变量可分为哪几类?
分类变量、顺序变量、数值型变量(也可以从其他角度对变量进行分类,如随机变量和非随机变量、经验变量和理论变量)。
7、什么是二手资料?使用二手资料需要注意些什么?
二手资料是指数据是由别人通过调查或实验的方式搜集的,使用者只是到它们并重新加工整理,使之成为我们进行统计可以使用的数据。
需要注意:
(1)资料是谁搜集的?这主要是考察数据收集者的实力和社会信誉度
(2)为什么目的而搜集?为了某个集团的利益而搜集的数据是值得怀疑的。
(3)数据是怎样搜集的?搜集数据可以有多种方法,不同方法所采集到的数据其解释力和说服力是不同的。
(4)什么时候搜集的?过时的数据,其说服力自然受到质疑。
(5)另外,要注意数据的定义、含义、计算口径和计算方法,避免错用、误用、滥用。在引用二手数据时,应注明数据的来源,以尊重他人的劳动成果。
8、比较概率抽样和非概率抽样的特点。举例说明什么情况下适合采用概率抽样,什么情况下适合采用非概率抽样。
概率抽样的特点:
(1)抽样是按一定的概率以随机原则抽取样本
(2)每个单位被抽中的概率是已知的,或是可以计算出来的
(3)当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率。可根据调查的结果推断总体。此外概率抽样的技术含量和调查成本更高。
非概率抽样的特点:
(1)不是依据随机原则抽取样本
(2)样本统计量的分布是不确定的
(3)无法使用样本的结果推断总体
如果调查的目的在于掌握研究对象总体的数量特征,得到总体参数的置信区间,就应当使用概率抽样的方法。非概率抽样操作简便、时效快、成本低,适合探索性的研究,调查的结果用于发现问题,为更深入的数量分析做好准备,也适合市场调查中的概念测试,如产品包装测试、广告测试等。
9、调查中搜集数据的方法有自填式、面试式、电话式。除此之外,还有哪些搜集数据的方法?
观察式、实验式
10、自填式、面试式、电话式调查各有什么利弊?
自填式
优点:
(1)调查组织者的管理相对容易
(2)成本最低
(3)有利于被调查者自由安排方便时间
(4)减少被调查者回答敏感问题的压力
缺点:
(1)问卷的回收率比较低
(2)自填式不适合结构复杂的问卷
(3)调查周期通常比较长,调查人员也需要对问卷的递送和回收方法进行仔细的研究和选择
面访式 
优点:
(1)可以提高调查的回答率
(2)提高调查数据的质量
(3)它能对数据搜集所花费的时间进行调节
缺点:
(1)调查成本比较高
(2)面访这种搜集数据的方式对调查过程的质量控制有一定难度,调查的数据质量与调查员的工作态度,责任心有直接关系。     
电话式
优点:
(1)速度快,能够在短时间完成调查。
(2)电话调查特别适合样本单位十分分散的情况
缺点:
(1)如果被调查者者没有电话,调查将无法实施。
(2)使用电话进行访问的时间不能太长。
(3)电话调查所用的问卷要简单
(4)与面访式相比,电话调查由于不是面对面交流,在被访者不愿接受调查时,要说服他们更为困难
11、你认为应当如何控制调查中的回答误差?
(1)查员进行培训,学习心理学知识
(2)缩短调查所涉及的时间范围
(3)做好思想工作,打消顾虑,调查人员遵守职业道德,保守秘密。调查中尽量避免敏感性问题。
12、怎样减少无回答?请通过一个例子,说明你所考虑到的减少无回答的具体措施。
如果无回答误差是随机的,可以通过增大样本量的方式解决。例子P33
如果无回答的系统性误差解决的途径主要在两方面:一方面是预防,即在调查前做好各方面的准备工作,尽量把无回答降到最低程度。另一方面,当无回答出现后,分析无回答产生的原因,采取一些补救措施。例子p33
13、数据的预处理包括哪些内容?
数据审核、数据筛选、数据排序
14、分类数据和顺序数据的整理和图示各有哪些?
分类数据
整理: 频数和频率分布    图示:条形图,帕累托图,饼图,环形图
顺序数据
整理: 累积频数 累积频率 图示:累积频数分布或频率图
15、数值型数据的分组方法有哪些?简述组距分组的步骤。
单变量值分组和组距分组。
(1)确定组数(2)确定各组的组距(3)根据分组整理成频数分布表(P53)
16、直方图与条形图有何区别?
(1)条形图是用条形的长度表示各类别频数的多少,其宽度则是固定的,直方图使用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度表示各组的组距,因此其高度和宽度有意义
(2)由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。
(3)条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。
17、绘制线图应注意哪些问题?
绘制线图时,时间一般绘在横轴,观测值绘在纵轴。一般应绘成横轴略大于纵轴的长方形,其长宽比例大致为:10:7。图形过扁或过于瘦高,不仅不美观,而且会给人造成视觉上的错
觉,不便于对数据变化的理解。一般情况下,纵轴数据下端应从“0”开始,以便于比较。如果数据与“0”之间的间距过大,可以采取折断的符号将纵轴折断。
18、饼图和环形图有什么不同?
(1)饼图是实心的,环形图中间有一个空洞。
(2)饼图只能展示一个样本各部分所占的比例,环形图可显示多个样本所占的相应比例,从而有利于构成比较研究
19、茎叶图与直方图相比有什么优点,它们的应用场合是什么?
茎叶图类似于横置的直方图,与直方图相比,茎叶图既能给出数据的分布状况,又能给出每一个原始数据,既保留了原始数据的信息,而直方图虽然能很好的显示数据的分布,但不能保留原始的数据,在应用方面,直方图通常适用于大批量的数据,茎叶图通常适用于小;批量数据。
20、鉴别表优劣的准则有哪些?
(1)一张好图应当精心设计,有助于洞察问题的实质
(2)一张好图应当使复杂的观点得到简明,确切,高效的阐述
(3)一张好图应当能在最短时间内以最少的笔墨给读者提供最大的信息。
(4)一张好图应当是多维的
(5)一张好图应当表述数据的真实情况
21、多元线性回归模型中有哪些基本假设?
(1)误差项是一个期望值为0的随机变量。
(2)对于自变量x1,x2,...xk的所有值,误差项的方差都相等。
(3)误差项是一个服从正态分布的随机变量,且相互独立
22、解释多重判定系数和调整的多重判定系数的含义和作用。
多重判定系数(R^2)是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程的一个统计量,反映了在因变量y的变差中被估计的回归方程所解释的比例。
调整的多重判定系数用样本量n和自变量的个数k去调整R^2,计算出调整的多重判定系数。其实际意义与R^2类似。
23、解释多元共线性的含义。
当回归模型中两个或以上的自变量彼此相关时,则称回归模型具有多重共线性
24、多重共线性对回归分析有哪些影响?
(1)变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途
(2)多重共线性可能对参数估计值的正负号产生影响,特别是βi的正负号有可能同预期的正负号相反。因此,当存在多重共线性时,对回归系数的解释将是危险的。
25、多重共线性的判别方法主要有哪些?
(1)模型中各对自变量之间显著相关
(2)当模型的线性关系检验显著时,几乎所有回归的系数βIde t检验却不显著
(3)回归系数的正负号与预期的相反
26、多重共线性的处理方法有哪些?
(1)删除变量法
(2)增大样本容量
(3)变换模型的模式
(4)利用非样本化先验信息---约束条件。直方图与条形图有何区别
(5)变量交换
(6)横截面数据与时间序列数据并用
27、在多元线性回归中,选择自变量的方法有哪些?
向前选择、向后剔除、逐步回归、最优子集

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。