统计学原理贾俊平期末考试重点--688IT编程网

统计学期末

（单选、10个填空、5个判断、三个计算、一道论述）

第一章导论

1、统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

分析数据：分为描述统计方法和推断统计方法两种方法。

描述统计：研究的是数据收集、处理、汇总、图表描述、概括与分析等统计方法。

推断统计：是研究如何利用样本数据来推断总体特征的统计方法。

推断统计内容包含参数估计和假设检验

2、统计数据的类型：

（1）按照采用的计量尺度不同，可以将统计数据分为分类数据、顺序数据与数值型数据。注意：分类数据和顺序数据都是表现事物的品质特征，通常是用文字来表述的，其结果均表现为类别，因此可以通称为定性数据或品质数据(qualitative data)。

数值型数据说明的是现象的数量特征，通常用数值来表现，因此可以统称为定量数据或数量数据(quantitative data)。

(2)按照统计数据的收集方法，可以将统计数据分为观测数据和实验数据。

(3)按照被描述的现象与时间的关系，可以将统计数据分为截面数据、时间序列数据（和面板数据 panal data）。

3、抽样独立性问题：总体区分为有限总体和无限总体，目的是为了判别在抽样中每次抽取是否独立（类似抽小球是否放回的问题）。

在统计推断中，通常是针对无限总体的，因而通常把总体看做随机变量（random variable）。统计上的总体通常是一组观测数据，而不是一人或者一些物品的简单集合。

4、统计指标按其所反映的数量特点和作用不同，分为数量指标、质量指标。

样本（sample）是从总体中抽取的一部分元素的集合，构成样本的元素的数目称为样本量（sample size）。抽样的目的是根据样本提供的信息推断总体的特征。

5、总体参数（parameter）是用来描述总体特征的概括性数字度量，是研究者想要了解的某种特征值。样本统计量（statistic）是用来描述样本特征的概括性数字度量，是根据样本数量计算出来的一个量。

6、变量（variable）是说明现象某种特征的概念，特点是从一次观察到下一次观察会呈现出差别或变化。例如：受教育程度，植株高度，年收入，宗教信仰，产品等级等都是变量。

变量可以分为分类变量、顺序变量和数值型变量。

数值型变量根据取值不同，可以分为离散变量（只能取可数值的变量，只能取有限个值，取值都是以整位数断开，如：产品产量、各位候选人得票数，企业数量等。）和连续变量（可以在一个或多个区间取

任何值的变量，取值是连续不断的，不可一一列举，如：植株高度，毕业生年收入，温度，零件尺寸误差等。）。

变量也可以分为随机变量和非随机变量（抽取方法随机性不同），经验变量（empirical variable）和理论变量（theoretical variable）。经验变量描述的是周围环境中可以观察到的事物，理论变量则是统计学家采用数学方法构造出来的一些变量，比如z统计量、t统计量、χ2 统计量、F 统计量等都是理论变量。

第二章数据的搜集

本章小结

1、数据的来源：直接来源与间接来源

直方图与条形图有何区别

2、调查数据：概率抽样（简单随机抽样，分层抽样，系统抽样，整抽样，多阶段抽样）和非概率抽样（方便抽样，判断抽样，自愿样本，滚雪球抽样，配额抽样），搜集数据的方法（自填式，面访式，电话式）的抽样方式和特点

3、实验数据：实验组和对照组，大量观察法

4、数据的误差：抽样误差和非抽样误差（抽样框误差，回答误差，无回答误差，调查员误差，测量误差），误差的控制

5、参数估计和假设检验所依据的主要是简单随机样本

第三章数据整理与显示

1、直方图和条形图的区别：直方图用面积表示数据，条形图用高度表示数据；直方图主要展示数值型数据，具有连续性；条形图主要展示分类数据，分开排列。

帕累托图：按照各类别数据出现的频数多少排序后绘制的条形图。

2、累积频数和累积频率（顺序数据统计量）

累积频数(cumulative frequencies)：各类别频数或组的频数逐级累加起来得到的频数。频数累积方法有两种：向上累积（顺序数据从开始到最后，数值数据从小到大）和向下累积。累积频率(cumulative percentages)或累计百分比：各有序类别或组的百分比逐级累加起来，也有向上累积和向下累积之分。

3、数据分组有 2 种方法：单变量值分组和组距分组

单变量值分组：把每一个变量作为一组，只适合离散变量，且在变量值较少的情况下使用。

组距分组：全部变量划分为若干个区间，将一个区间的变量值作为一组。A.适用于连续变量或变量值较多的情况 B.一组的最小值称为下限（lower limit），一个组的最大值称为上限（upper limit）。上限与下限的差称为组距，每组的中点值称为组中值（=(上限+下限)/2）。为了解决不重问题，习惯上规定“上组限不在内”，即ａ≤ｘ＜ｂ。

首组假定下限=该组上限- 邻组组距

末组假定上限=该组下限 + 邻组组距

首组组中值的确定：如，2000 以下，2000—3000，3000—4000，则为，2000-（3000-2000/2 4、分类数据的图示：条形图、帕累托图、饼图、环形图。

顺序数据的图示：除了上述外还有可以绘制累积频数分布或频率图。

数值型数据的展示：a.分组数据：直方图

b.未分组数据：茎叶图和箱线图

c.时间序列数据：线图

d.多变量数据的图示：散点图、气泡图和雷达图

第四章数据的概括性度量

1、数据的分布特征可以从三个方面进行概括性测度和描述：

（1）集中趋势；（2）离散程度；（3）峰态和偏态

2、集中趋势的度量：

众数，用M0表示，一组数据可能没有众数，也可能有两个或多个众数

中位数，不能用于分类数据，中位数只有一个（偶数时取平均）

中位数四分位数

百分位数：是有P%的数据项小于或等于第P百分位数的值；有（100 - P）%的数据项大于或等于这个值。

求第P百分位数的值

1）、由小到大排序。

2）、计算P百分位数所在的位置i =( p%) n，n是总项数。

3）、若i不是整数，将之向上取整，得到的整数即是第P百分位数所在的位置，相对应的数即是第P百分位数；（后面样本量n的确定也是向上取整的圆整法则）

若 i 是整数，则第 P 百分位数是第 i 项与第 i+1 项数据的算术平均数。

平均数：适用于数值型数据，不适用与分类数据和顺序数据。

几何平均数：主要用于计算平均比率，平均增长率。

如计算股票的平均收益率

调和平均数：

平均数、中位数、众数的比较：

平均数包含的信息最丰富，代表性最好。当数列不是偏态分布的时候，平均数是集中趋势的最佳选择。但平均数要受数列中离值的影响。

中位数的适用范围比平均数宽，而且不受离值的影响。当数列的分布是偏态时，中位

数是最有用的集中趋势代表值，因为它位于平均数和众数之间。

众数的适用范围比平均数和中位数都宽，也不受离值的影响。而且，在图上它很容易被观察到。但由于众数提供的信息很少，因此它是用途最小的集中趋势代表值。

3、离散程度的度量

（1）分类数据。异众比率(variation ratio)是指非众数组的频数占总频数的比例，用 Vr 表示。计算公式为：

（2）顺序数据。四分位差(quartile deviation)也称为内距或四分间距（inter-quartile range），上四分位

数与下四分位数之差，用 Q d表示：Q d = Q U– Q L。反映了中间 50%数据的离散程度，其数值越小，说明数据越集中，反之说明数据越分散。

（3）数值型数据

极差(range)是一组数据的最大值与最小值之差，也称全距，用 R 表示。计算公式：

R= max(x

i ) - min(x

)

平均差(mean deviation)也称平均绝对离差（mean absolute deviation），是各变量值与其平均数离差绝对值的平均数，用Md表示，计算公式：

方差和标准差

样本方差和标准差的计算公式总体方差和标准差的计算公式

（4）相对位置的度量

1）标准分数(standard score)是变量值与其平均数的离差除以标准差后的值，也称标准化值或者z分数。

给出了一组数据中各个数值的相对位置。比如：某个数值的标准分数为-1.5，则该数值低于平均数1.5倍的标准差。

2）经验法则：当一组数据对称分布时，

约有68%的数据在平均数加减1个标准差的范围之内

约有95%的数据在平均数加减2个标准差的范围之内

688IT编程网

统计学原理贾俊平期末考试重点

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

统计学原理贾俊平期末考试重点

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式