数据的计量尺度有哪些(1)
1、数据的计量尺度有哪些?各自特征
(1)定类尺度:计量层次最低;对事物进行平行的分类;各类别可以指定数字代码表示;使用时必须符合类别穷尽和互斥的要求;数据表现为“类别”;具有=或?的数学特性
(2)定序尺度:对事物分类的同时给出各类别的顺序;比定类尺度精确;未测量出类别之间的准确差值;数据表现为“类别”,但有序;具有>或<的数学特性(例如,产品分为一等品、二等品、三等品、次品等)
(3)定距尺度:对事物的准确测度;比定序尺度精确;数据表现为“数值”;没有绝对零点;具有 + 或 — 的数学特性,但是倍数关系不成立(如气温可以有温差,但不能有倍数关系)
(4)定比尺度:对事物的准确测度;与定距尺度处于同一层次;数据表现为“数值”;有绝对零点;具有 ? 或 ? 的数学特性,也可+或— ,倍数关系成立(如年龄可以有差值也可以有倍数关系) &以上四种计量尺度对事物的测量层次由低级到高级、由粗略到精确逐步地进,高层次计量尺度有低层次计量尺度的全部特征,反之不成立。
·对测量尺度层次的判断
(1)较低层次的测量尺度测量精度低,而较高层次的测量尺度测量精度高。
(2)较低层次的测量尺度计算方法少,而较高层次的测量尺度计算方法多。
(3)较低层次的测量尺度信息数量少,而较高层次的测量尺度信息数量多。
2、条形图与直方图的不同
(1)直方图表示定量数据(定距、定比数据),条形图表示定性数据(定类、定序数据)
(2)条形图是用条形的长度表示各类别频数的多少,其宽度是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,高度与宽度均有意义
(3)直方图的各矩形通常是连续排列,条形图则是分开排列
3、均值、中位数和众数的特点及之间的关系
(1)众数:不受极端值影响、具有不惟一性、数据分布偏斜程度较大时应用
(2)中位数:不受极端值影响、数据分布偏斜程度较大时应用
(3)均值:易受极端值影响、数学性质优良、数据对称分布或接近对称分布时应用
·当分布为适度偏态时,三者之间近似的数量关系是:众数与算术平均数的距离是中位数与算术平均数距离的3倍,即:e M X M X -=-30
根据这一关系,可以得到以下三个关系式:
4、为什么要计算离散系数?如何运用离散系数判断平均数的代表性?
(1)离散系数:标准差与其相应的均值之比,是对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,用V 表示。公式如下:
(2)离散系数大的离散程度大,平均数代表性小;反之,离散系数小的离散程度小,平均数代表性大。
5、什么是参数?什么是统计量?二者有何关系?
(1)参数:研究者想要了解的总体的某种特征值。总体参数通常用希腊字母表示,所关心的参数主要有总体均值(?)、标准差(?)、总体比例(π)等。
(2)统计量:根据样本数据计算出来的一个量。样本统计量通常用小写英文字母来表示,所关心的样本统计量有样本均值(?x)、样本标准差(s)、样本比例(p)等
(3)关系:
6、评价估计量优良的标准是什么?
(1)无偏性:估计量抽样分布的数学期望等于被估计的总体参数。若,则称为的
无偏估计量。
(2)有效性:作为优良的估计量,除了满足无偏性的要求外,其方差应比较小。假定、为总体参数的两个无偏估计量,其抽样分布的方差分别用和表示,若,则
称为比更有效的估计量。在无偏估计条件下,估计量方差越小,离散程度越小,估计越有效。
(3)一致性:指随着样本单位数n的增大,样本估计量将在概率意义下越来越接近于总体真实
值。若n越大越小,则称为的一致估计量。
7、什么是假设检验中的两类错误?第一类错误和第二类错误分别指什么?它们发生的概率大小之间存在怎样的关系?
(1)第一类错误(弃真错误):原假设正确却拒绝了原假设。第Ⅰ类错误的概率记为
,被称为显着性水平。
(2)第二类错误(存为错误):原假设为假时未拒绝原假设。第Ⅱ类错误的概率记为。
(3)关系:在样本量不变的情况下,越小,犯第一类错误的可能性越小,但就大,犯第二类错误的可能性越大;反之,越大,犯第一类错误的可能性越大,,但就小,饭第二类错误的可能性越小。不能同时减少两类错误,要使二者同时减小的唯一办法就是增加样本量。
8、另加:什么是小概率事件原理?
(1)在一次试验中,一个几乎不可能发生的事件发生的概率
(2)在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设
(3)小概率由研究者事先确定
9、什么是方差分析,它研究的是什么?
(1)方差分析就是从数据差异入手,通过检验多个总体均值是否相等来判断分类型自变量对数值型因变量是否有显着影响的统计方法。
(2)方差分析从形式上看是比较多个总体的均值是否相等,但本质上研究的是变量之间的关系,包括他们之间有没有影响关系,关系的强度如何等。
10、方差分析中有哪些基本假定
⑴每个总体均服从正态分布。即有:x~N(u,σ2)对于每个因素中的每一个水平,其观测值是来自正态分布总体的简单随机样本。
⑵每个总体的方差都相同。即:σ21=σ22=……=σn2 各组观测数据是从具有相同方差的正态分布总体中抽取的。
⑶各水平下的观测值相互独立。
11、简述方差分析的基本思想
⑴比较两类误差,以检验均值是否相等
⑵比较的基础是方差比
⑶如果系统(处理)误差明显地不同于随机误差,则均值就不相等;反之,均值相等
⑷误差是由各部分的误差占总误差的比例来测度的
12、简述方差分析的基本步骤
(一)提出假设
一般提法
H0 :m1 = m2 =…= mk 自变量对因变量没有显着影响
H1 : m1 ,m2 ,… ,mk不全相等自变量对因变量有显着影响直方图与条形图有何区别
x n x σσ=注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等
(二)构造检验的统计量
1. 计算各水平的均值
(1)假定从第i 个总体中抽取一个容量为ni 的简单随机样本,第i 个总体的样本均值为该样本的全部观察值总和除以观察值的个数
(2)计算公式为式中: ni 为第 i 个总体的样本观察值个数 xij 为第 i 个总体的第 j 个观察值 2. 计算全部观察值的总均值 (1)全部观察值的总和除以观察值的总个数
(2)计算公式为:
k k i i
i k i n j ij n n n n n x n n x
x i +++===
∑∑∑===Λ21111式中:
3. 计算误差平方和 (1)总误差平方和()
∑∑==-=k i n j ij i x x SST 112 (2)水平项误差平方和
()()∑∑∑===-=-=k i i i k i n j i x x n x x SSA i 12
112
3)误差平方和()
∑∑==-=k i n j i ij i x x SSE 112
(4)三个平方和的关系SST=SSA+SSE
(5)三个平方和的作用
① SST 反映全部数据总的误差程度;SSE 反映随机误差的大小;SSA 反映随机误差和系统误差的大小
② 如果原假设成立,则表明没有系统误差,组间平方和SSA 除以自由度后的均方与组内平方和SSE 和除以自由度后的均方差异就不会太大;如果组间均方显着地大于组内均方,说明各水平(总体)之间的差异不仅有随机误差,还有系统误差
③ 判断因素的水平是否对其观察值有影响,实际上就是比较组间方差与组内方差之间差异的大小
4. 计算统计量
(1)计算均方差(MS )
④组间均方差:SSA 的均方差,记为MSA ,1-=
k SSA MSA
⑤组内均方差:SSE 的均方差,记为MSE ,k n SSE
MSE -= 2)计算检验统计量F ),1(~k n k F MSE MSA F --=
(三)统计决策
将统计量的值F与给定的显着性水平?的临界值F?进行比较,作出对原假设H0的决策
根据给定的显着性水平?,在F分布表中查与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F?
若F>F?,则拒绝原假设H0 ,表明均值之间的差异是显着的,所检验的因素对观察值有显着影响
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论