《卫生统计学》复习资料
☆ 第一章 绪论
统计学:是一门通过收集、整理和分析数据来认识社会和自然现象数量特征的方法论科学。其目的是通过研究随机事件的局部外在数量特征和数量关系, 从而探索事件的总体内在规律性,而随机性的数量化,是通过概率表现出来。
总体:总体是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表性。所谓有代表性的样本,是指用随机抽样方法获得的样本。
抽样:从研究总体中抽取少量有代表性的个体,称为抽样。
概率:概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数值,记为P(A),P(A)越大,说明A事件发生的可能性越大。0﹤P(A)﹤1。
频率:在相同的条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A在n次试验中出现的频率(freqency)。当试验重复很多次时P(A)= m/n。
变量:表现出个体变异性的任何特征或属性。
随机变量:随机变量(random variable)是指取指不能事先确定的观察结果。随机变量的具体内容虽然是各式各样的,但共同的特点是不能用一个常数来表示,而且,理论上讲,每个变量的取值服从特定的概率分布。
系统误差:系统误差(systematic error)是指由于仪器未校正、测量者感官的某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不是分散在真值的两侧,而是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计和完善技术措施来消除或使之减少。
随机误差:随机误差(random error)又称偶然误差,是指排除了系统误差后尚存的误差。它受多种因素的影响,使观察值不按方向性和系统性而随机的变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。变异是生物医学研究
领域普遍存在的现象。严格的说,在自然状态下,任何两个患者或研究体间都存在差异,其表现为各种生理测量值的参差不齐。
抽样误差:(消除了系统误差,并将随机测量误差控制在允许范围内)由于个体变异的存在,在抽样过程中产生的样本统计量与总体参数之间的差异。
分布:随机现象的规律性通过概率来刻画,而随机事件的所有结局及对应概率的排列称为分布。
☆ 第二章 定量资料的统计描述
算术均数:描述一组数据在数量上的平均水平。总体均数用μ表示,样本均数用表示。适用条件:对称分布或正态分布的资料。
几何均数:用以描述对数正态分布或数据呈倍数变化资料的水平。记为G。适用条件:对于变量值呈倍数或等比关系、或呈对数正态分布(正偏态分布)的资料。
中位数:将一组观察值由小到大排列,n为奇数时取位次居中的变量值;为偶数时,取位次
居中的两个变量的平均值。适用条件:①变量值中出现个别特小或特大的数值;②资料的分布呈明显偏态,即大部分的变量值偏向一侧;③变量值分布一端或两端无确定数值,只有小于或大于某个数值;④资料的分布不清。
百分数适用条件:(1)描述一组资料在某百分位置上的水平;(2)用于确定正常值范围;(3)计算四分位数间距。
众数:众数原指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值。
极差:亦称全距,即最大值与最小值之差,用于资料的粗略分析,其计算简便但稳定性较差。极差越大意味着数据越离散,或者说数据间变异越大。特点:计算简单,容易理解,应用广泛。但不稳定,不全面,易受极端值影响。可用于各种分布类型的资料。
四分位数间距:是由第3四分位数和第1四分位数相减计算而得,常与中位数一起使用,描述偏态分布资料的分布特征,较极差稳定。特点:比极差稳定,只反映中间50%数据的两端值的差异。计算不太方便。可用于各种分布的资料。主要用于偏态分布的资料。
方差:方差表示一组数据的平均离散情况,由离均差的平方和除以样本个数得到。特点:充
分反映每个数据间的离散状况,意义深刻;指标稳定,应用广泛,但计算较为复杂,不易理解;方差的单位与原数据不同,是原单位的平方。有时使用时不太方便;在方差分析中应用甚广而极为重要。
标准差:是方差的正平方根,使用的量纲与原量纲相同,适用于近似正态分布的资料,大样本、小样本均可,最为常用。特点:意义同方差,是方差的开平方;标准差的单位与原数据相同,使用方便,意义深刻,应用广泛;故一般已作为医学生物学领域中反映变异的标准,故称标准差。
变异系数:直条图和直方图图片用于观察指标单位不同或均数相差较大时两组资料变异程度的比较,用CV表示。应用条件:(1)变异系数为无量纲单位,可以比较不同单位指标间的变异度;(2)变异系数消除了均数的大小对标准差的影响,所以可以比较两均数相差较大时指标间的变异度。注意:CV一般不大于20-30%。否则,说明指标不太稳定。
问答题
常见的描述集中趋势的指标有哪些,概念分别是什么?
答:常见的描述集中趋势的指标有算数均数、几何均数、中位数和众数。概念见名解。
常见的描述离散趋势的指标有哪些,概念分别是什么?
答:常见的描述离散趋势的指标有极差、四分位数间距、方差、标准差和变异系数。概念见名解。
统计表和统计图
统计表:将统计资料及其指标以表格形式列出,称为统计表(statistical table)。狭义的统计表只表示统计指标。
统计图:统计图(statistical graph)是将统计指标用几何图形表达,即以点的位置、线段的升降、直条的长短或面积的大小等形式直观的表示事物间的数量关系。
箱式图用于描述连续型变量的分布特征。涉及到的各个取值:由大到小的次序为:极大值、P75、中位数、P25和极小值。
问答题
常用统计图的定义和制图要求。
名 称 | 定 义 | 制 图 要 求 |
条 图 | 用等宽直条的长短来表示相互独立的各统计指标的数值大小 | 起点为0的等宽直条,条间距相等,按高低顺序排列。 |
普通线图 | 适用于连续性资料。用线段的升降来表示一事物随另一事物变化的趋势。 | 纵横两轴均为算术尺度,相邻两点应以折线相连。图内线条不宜超过3条。 |
半对数线图 | 用线段的升降来表示一事物随另一事物变化的速度。 | 横轴为算术尺度,纵轴为对数尺度。余同普通线图。 |
圆 图 | 以圆面积表示事物的全部,用扇形面积表示各部分的比重 | 以圆面积为100%,将各构成比分别乘以3.6度得圆心角度数后再绘扇形面积。通常以12点为始边依次绘图。 |
直方图 | 用矩形的面积来表示某个连续型变量的频数分布 | 常以横轴表示连续型变量的组段(要求等距),纵轴表示频数或频率,其尺度从“0”开始,各直条间不留空隙。 |
散点图 | 以点的密集程度和趋势表示两种事物间的相关关系 | 绘制方法同线图,只是点与点之间不连接。 |
☆ 第三章 定性资料的统计描述
相对数:是两个有联系的指标之比,是分类变量常用的描述性统计指标,常用相对数有率、构成比、比等。
标准化法:是常用于内部构成不同的两个或多个率比较的一种方法。标准化法的基本思想就是指定一个统一“标准”(标准人口构成比或标准人口数),按指定“标准”计算调整率,使之具备可比性以后再比较,以消除由于内部构成不同对总率比较带来的影响。
问答题
常用的相对数指标有哪些?它们的意义和计算上有何不同?
答:常用的相对数指标有:率、构成比和相对比。意义和计算公式如下:
①
率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‰等表示。
②构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。
③比又称相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标 / 乙指标(或100%)
甲乙两个指标可以是绝对数、相对数或平均数等。
令:
频率型指标(proportion)
也称比率或构成比表示某事物内部各组成部分所占的比重或分布,或指某现象发生的频率。
频率型指标=
强度型指标(intensity)
表示单位时间内某现象发生的频率。 多用于随访资料。
强度型指标=
相对比型指标(ratio)
指两个有关联的指标A与B之比 ,简称比。A和B可以性质相同,也可以性质不同。如性别比,师生比,变异系数,OR值,RR值等。
比=
应用相对数时应注意哪些问题?
答:应用相对数时应注意的问题有:
⑴ 计算相对数的分母一般不宜过小。
⑵ 分析时不能以构成比代替率。
⑶ 不能用构成比的动态分析代替率的动态分析。
⑷ 对观察单位数不等的几个率,不能直接相加求其总率。
⑸ 在比较相对数时应注意可比性。
⑹ 对样本率(或构成比)的比较应随机抽样,并做假设检验。
应用标准化法的注意事项有哪些?
答:应用标准化法时应注意的问题有:
1)标准化法的应用范围很广,其主要目的就是消除混杂因素的影响。
2)标准化后的标准化率,已经不再反反映当时当地的实际水平,它只是表示相互比较的资料间的相对水平。
3)报告比较结果时必须说明所选用的“标准”和理由。
4)两样本标准化率是样本值,存在抽样误差。当样本含量较小时,还应作假设检验。
什么时候用间接或直接标准化:直接标准化法:知道分组各组段的分布资料。
间接标准化:缺少各组段的分布资料,只知道总体资料。
请比较发病率和患病率的不同。答:发病率表示一定时期内,在可能发生某病的一定人活过的总人年数中,新发生的某病病历数,其分子是新病历数,分母是总人年数;患病率,又称现患率,指某时点上受检人数中先患某种病的人数,通常用于描述病程较长或发病时间不易明确的疾病的患病情况,其分子包括新旧病例数,分母是受检总人数。在一定的人和时间内,发病率和患病率有密切关系,两者与病程(D)的关系是:PR=IR×D。
请比较死亡率与病死率的不同。答:死亡率与病死率的分子是一样的,均表示因某病死亡的人数,但死亡率的分母是总人年数,侧重反映发生的强度,或单位时间内死亡的概率;病死率的分母是患某病的人数,反映疾病死亡的概率。
☆ 第四章 常用概率分布
正态分布:若指标的频率曲线对应于数学上的正态曲线,则称该指标服从正态分布(normal distribution)。通常用记号表示均数为,标准差为的正态分布。特点:①集中性:正态曲线的高峰位于正中央,即均数所在的位置。②对称性:正态曲线以均数为中心,左右对称;③正态分布有两个参数:即均数μ和标准差σ。μ决定了分布的左右位置;σ决定了曲线的高矮或胖瘦。④正态曲线下面积:有一定的分布规律。
标准正态分布:均数为0、标准差为1的正态分布被称为标准正态分布(standard normal distribution),通常记为。
正态分布:一种很重要的连续型分布,以均数为中心,左右两侧对称,靠均数两侧的频数较多,离均数越远,频数越少,形成钟形分布。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论