第一章
1、什么是统计学:收集、处理、分析、解释数据并从数据中得出结论的科学
2、统计方法:
(1)描述统计(知道总体数据)
    ①含义:研究数据收集、整理和描述的统计学方法
    ②内容:搜集数据、整理数据、展示数据、描述性分析
    ③目的:描述数据特征、出数据的基本规律
(2)推断统计
    ①含义:研究如何利用样本数据来推断总体特征的统计学方法
    ②内容:参数估计、假设检验
    ③目的:对总体特征作出推断
3、统计应用上的两个极端:不用或几乎不用统计;简单问题复杂化
4、统计的滥用:不好的样本;过小的样本;误导性图表;局部描述;故意曲解
5、什么是变量:从一次观察到下一次观察会出现不同结果的某种特征
6、数据:观察到的变量的结果
7、数值变量:又称定量变量,观测结果表现为数字的变量
8、分类变量:又称无序分类变量,观测结果表现为某种类别的变量,分类变量和顺序变量统称为定性变量
9、顺序变量:又称有序分类变量,观测结果表现为某种有序类别的变量
10、总体:包含所研究的全部个体(数据)的集合
11、样本:从总体中抽取的一部分元素的集合
12、样本量:构成样本的元素的数目
13、概率抽样:根据一个已知的概率来抽取样本单位,也称随机抽样
    特点:按一定的概率以随机原则抽取样本;抽取样本时使每个单位都有一定的机会被抽中;每个单位被抽中的概率是已知的,或是可以计算出来的 ;当用样本对总体目标量进行估计时,要考虑到每个样本单位被抽中的概率
14、简单随机抽样
含义:从总体N个单位(元素)中随机地抽取n个单位作为样本,使得总体中每一个元素都有相同的机会(概率)被抽中
方法:抽取元素的具体方法有重复抽样和不重复抽样
特点:简单、直观,在抽样框完整时,可直接从中抽取样本;用样本统计量对目标量进行估计比较方便
局限性:当N很大时,不易构造抽样框;抽出的单位很分散,给实施调查增加了困难;没有利用其他辅助信息以提高估计的效率
15、分层抽样
含义:将总体单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
优点:保证样本的结构与总体的结构比较相近,从而提高估计的精度;组织实施调查方便;既可以对总体参数进行估计,也可以对各层的目标量进行估计
16、系统抽样
含义:将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
优点:操作简便,可提高估计的精度
缺点:对估计量方差的估计比较困难
17、整抽样
含义:将总体中若干个单位合并为组(),抽样时直接抽取,然后对中选中的所有单位全部实施调查
特点:抽样时只需的抽样框,可简化工作量;调查的地点相对集中,节省调查费用,方便调查的实施;缺点是估计的精度较差
第二章
18、频数:落在各类别中的数据个数
19、比例:某一类别数据个数占全部数据个数的比值
20、百分比:将对比的基数作为100而计算的比值
21、比率:不同类别数值个数的比值
22、定性数据与定量数据的表示方法(表+图)
定性数据:频数分布表、条形图、帕累托图、饼图、环形图频率分布直方图和条形图的区别
定量数据:频数分布表、直方图、茎叶图、箱线图、垂线图、误差图、散点图、雷达图、轮廓图
23、环形图与饼图的区别:饼图只能显示一个总体各部分所占的比例;环形图则可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环
24、生成频数分布表的步骤:确定组数、确定组距、统计出各组的频数
25、直方图是用于展示分组数据分布的一种图形,用矩形的宽度和高度来表示频数分布(本质上是用矩形的面积来表示频数分布),在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图;直方图下的总面积等于1
26、直方图与条形图的区别:①条形图中的每一矩形表示一个类别,其宽度没有意义,而直方图的宽度则表示各组的组距;②由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列;③条形图主要用于展示定性数据,而直方图则主要用于展示定量数据
27、茎叶图与直方图的区别:①直方图可观察一组数据的分布状况,但没有给出具体的数值;
②茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息;③直方图适用于大批量数据,茎叶图适用于小批量数据
28、箱线图:用于显示未分组的原始数据的分布
29、垂线图:用于展示多个变量或多个样本取值的分布状况
30、散点图:用于展示两个变量之间的关系;用横轴代表变量x,纵轴代表变量y,每组数据(xi , yi)在坐标系中用一个点表示,n组数据在坐标系中形成的n个点称为散点,由坐标及其散点形成的图
31、雷达图:也称为蜘蛛图;用于研究多个样本在多个变量上的相似程度;当多个变量的取值相差较大或量纲不同时,可进行变换(线性变换或对数变换)处理后再做图。
32、轮廓图:用于研究多个样本在多个变量上的相似程度或变量间的相互关系,将各变量用一系列平行的横坐标轴表示,变量值对应纵轴上的位置
33、鉴别图表优劣的准则
(1)一张好的图表应包括以下基本特征:显示数据;让读者把注意力集中在图表的内容上,而不是制作图表的程序上;避免歪曲;强调数据之间的比较;服务于一个明确的目的;有对图表的统计描述和文字说明
(2)5种鉴别图表优劣的准则:一张好的图表应当:精心设计、有助于洞察问题的实质;使复杂的观点得到简明、确切、高效的阐述;能在最短的时间内以最少的笔墨给读者提供最大量的信息;是多维的;表述数据的真实情况
第三章
34、描述数据的分布特征的三方面:①数据的水平,反映数据的集中程度(平均数、中位数、分位数);②数据的差异,反映各数据的离散程度(极差、四分位差、方差、标准差);③分布的形状,反映数据分布的偏态和峰态(偏态、峰态)
35、众数、中位数和平均数的关系:
                                                           
36、众数、中位数、平均数的特点和应用
①平均数:易受极端值影响;数学性质优良,实际中最常用;数据对称分布或接近对称分布时代表性较好
②中位数:不受极端值影响;数据分布偏斜程度较大时代表性较好
③众数:不受极端值影响;具有不惟一性;数据分布偏斜程度较大且有明显峰值时代表性较好
37、极差:一组数据的最大值与最小值之差;离散程度的最简单测度值;易受极端值影响;未考虑数据的分布;计算公式为:R = max(xi) - min(xi)
38、四分位差:也称为内距或四分间距;上四分位数与下四分位数之差:Qd = QU–QL反映了中间50%数据的离散程度;不受极端值的影响;用于衡量中位数的代表性
39、方差和标准差:数据离散程度的最常用测度值;反映各变量值与均值的平均差异;根据总体数据计算的,称为总体方差(标准差),记为σ2(σ);根据样本数据计算的,称为样本方差
(标准差),记为s2(s)
40、标准分数:也称标准化值;对某一个值在一组数据中相对位置的度量;可用于判断一组数据是否有离点;用于对变量的标准化处理;均值等于0,方差等于1
41、标准分数的用途:根据标准分数,可以判断一组数据中是否存在离点。经验表明:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内;约有95%的数据在平均数加减2个标准差的范围之内;约有99%的数据在平均数加减3个标准差的范围之内。也就是说,在平均数加减3个标准差的范围内几乎包含了全部数据,而在标准差之外的数据在统计上也称为离点
42、离散系数:标准差与其相应的均值之比;对数据相对离散程度的测度;消除了数据水平高低和计量单位的影响
    离散细数主要用于对不同组别数据离散程度的比较,离散系数大的说明数据的离散程度也就大,离散系数笑得说明数据的离散程度也就小
43、偏态:偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布。偏态系数大于1或小于-
1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低
44、峰态:数据分布扁平程度的测度,峰态系数=0为峰度适中,峰态系数<0为扁平分布,峰态系数>0为尖峰分布
第四章
45、概率:是对事件发生的可能性大小的度量,介于0和1之间,事件A的概率记为P(A)
46、怎样获得概率:重复试验获得概率;用类似的比例来逼近;主观概率
47、随机变量:事先不能确定其取值的变量
              离散型:只能取有限个值的随机变量
试验
随机变量
可能的取值
抽查100个产品
一家餐馆营业一天
电脑公司一个月的销售
销售一辆汽车
取到次品的个数
顾客数
销售量
顾客性别
0,1,2, …,100
0,1,2, …
0,1, 2,…
男性为0,女性为1
              连续型:可以取一个或多个区间中任何值的随机变量
试验
随机变量
可能的取值
抽查一批电子元件
新建一座住宅楼
测量一个产品的长度
使用寿命(小时)
半年后完工的百分比
测量误差(cm)
X ≥ 0
0 ≤ X ≤ 100
X ≥ 0
48、离散型随机变量的期望值:描述离散型随机变量取值的集中程度,离散型随机变量X的所有可能取值xi与其取相对应的概率 pi 乘积之和,记为μ或E(X)
49、离散型随机变量的方差:随机变量X的每一个取值与期望值的离差平方和的数学期望,记为σ2或D(X),描述离散型随机变量取值的分散程度
50、离散型随机变量的概率分布:列出离散型随机变量X的所有可能取值,列出随机变量取这些值的概率,通常用下面的表格来表示   
X = xi
x1 x2 xn
P(X =xi)=pi
p1 p2 pn
    P(X =xi)=pi称为离散型随机变量的概率函数
51、二项分布:重复进行n次试验,出现“成功”的次数的概率分布称为二项分布,记为X~B(n,p)
52、泊松分布:用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布
53、超几何分布:采用不重复抽样,各次试验并不独立,成功的概率也互不相等;总体元素的数目N很小,或样本容量n相对于N来说较大时,样本中“成功”的次数则服从超几何概率分布
54、正态分布函数的性质(特点):图形是关于x=μ对称钟形曲线,且峰值在x=μ处;均值μ和标准差σ一旦确定,分布的具体形式也惟一确定,不同参数正态分布构成一个完整的“正态分布族”;均值μ可取实数轴上的任意数值,决定正态曲线的具体位置;标准差决定曲线的“陡峭”或“扁平”程度。σ越大,正态曲线扁平;σ越小,正态曲线越高陡峭;当X的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。