《白话统计》读书笔记
读书笔记
2019/4/28
王申月
《白话统计》是学生统计学主题阅读的第1本书,这本书虽然说叫白话统计,但主要体现在讲的更全、更深,下面是学生阅读《白话统计》这本书是做的摘抄和笔记。这本书的作者是北京大学医学部博士冯国双,所用案例多为医疗数据。主要提供的是数据分析的思路,而不是公式、工具。分为基础篇、实用篇。基础篇主要介绍概念,实用篇侧重介绍各种方法的思路及实现。学生在本科阶段主修过《社会调查与统计》课程,但对统计方面还是懵懵懂懂,在基础知识和实际操作上存在着很大不足,希望自己能够在老师的指导下取得进步。
第一篇:基础篇
一、为什么学统计
统计能够助力科研、工作,提供理性看待事物的能力。
二、谈概率分布
(1)作者借助金庸小说《神雕侠侣》郭靖的内力能撑多久来解读概率分布,感觉非常有趣,其中累计分布函数一般用F(x)来表示,概率密度函数一般用f(x)来表示,密度与累积分布的关系是:密度=累积分布的增加量/长度。
(2)Weibull分布——常用于生存数据的拟合,描述死亡人数(并非直观意义上的死亡)的变化规律。Weibull分布的形状主要有两个参数来决定,参数λ反映曲线位置,参数ρ控制曲线形状。
(3)Logistic分布——常用于研究一些物种的生命周期演变,如人口变化、种变化、疾病感染变化等,也被称作生长曲线,有发生、发展、成熟、饱和4个阶段。在医学研究中,Logistic分布通常是三参数或二参数的形式。三参数Logistic曲线可表达为y,其中K表示上限值,a反映了增长速度,b表示拐点(即从b点开始上升速度变慢);二参数Logistic曲线表达为y
(4)正态分布——横轴为分类、纵轴为概率。正态分布的概率密度函数为f(x)==Z,从公式中可以看出来,正态分布主要有两个参数决定,即均数和标准差,均数是位置参数,决定正态分布的位置;标准差是形状参数,决定了分布的分散程度,标准差越大,分布越“矮胖”;标准差越小,分布越“瘦高”。但是无论形状如何变化,其规律都是一定的,在正态分布中,以均数为中心,往左或往右1倍标准差的面积各约为34.1%。如图1所示
图 1
(5)t分布——小样本正态分布,通过计算样本均值和样本方差,来估算总体的均值。自由度100以上,可用正态分布代替。t分布主要是与均数有关的抽样分布,常用于两个均数是否相等的统计检验、回归系数是否为0的统计检验。这些检验的形式都是某参数是否等于0,如两个差值是否等于0、回归系数是否等于0;F分布是与方差有关的抽样分布,常用于方差齐性检验、方差分析和回归模型检验它们都是针对方差而非均数的,如方差齐性检验是两个方差之比,方差分析是组间方差与组内方差之比,回归模型检验是模型方差与残差方差之比;分布也是与方差有关的抽样分布,但它在实际中常用于描述分类资料的实际频数与理论频数之间的抽样误差。由于分布本身是连续分布,因此在用于分类资料时,只有在大样本时才近似分布。这也就是在理论频数较小时需要对检验进行校正的原因。
三、关于统计资料类型的思考
(1)统计资料分为三种类型:计量资料、计数资料和等级资料,按照变量性质分为定量资料和定性资料。常见的资料类型如图2,
图 2
(2)分类资料中的无序和有序的确定,对于形式上的等级资料,如果研究目的关注这种等级或程度上的差异,则可将其作为有序分类资料;如果研究目的只是想了解各级别的构成情况,并不关注程度上的区别,则可将其作为无序分类资料。
(3)连续资料如何分组——寻cut-off值得多种方法
图 3
(4)虚拟变量主要用于多分类自变量与因变量是非线性关系的时候,优点是可以更真实地展示多分类自变量与因变量的关系;缺点是把一个多分类变量转换为虚拟变量后,自变量数目会增多,从而导致估计结果不稳定。
四、如何正确展示你的数据
(1)均数与中位数:用统计术语来说,正态分布的数据可以用均数来描述,偏态分布的数据最好用中位数来描述
(2)方差与标准差:离均差平方和是指每个数值分别与均数相减之差求其平方然后相加的总和;方差用公式表示为,分子是离均差平方和,分母是例数;标准差用公式表示为
(3)自由度:总体方差的计算,其分母是n,而样本方差的计算,其分母是n-1;这里所说的n-1即自由度,字面意思是计算样本统计量时能够自由取值的数值的个数,一般用df来表
示。
(4)百分位数——利用百分位数度量相对位置,箱式图,是指-种描述数据分布的统计图,是表述最小值、第一四分位数、中位数、第三四分位数与最大值的一种图形方法。它也可以粗略地看出数据是否具有对称性,分布的分散程度等信息,特别是可用于对几个样本的比较。在箱图中,最上方和最下方的线段分别表示数据的最大值和最小值,其中箱图的上方和下方的线段分别表示第三四分位数和第一四分位数,箱图中间的粗线段表示数据的中位数。另外,箱图中在最上方和最下方的星号和圆圈分别表示样本数据中的极端值。一般有两种类型的箱图:单式箱图用于分析只有一个变量的数据分布,复式箱图用以分析具有两个或以上变量的数据分布。如图3
图 4
(5)利用Z值度量相对位置:Z值的计算公式是Z=Z值反映了某个值x偏离均数μ的标准差倍数,Z值比较常见的两个应用是比较不同单位的指标和判断异常值;
(6)谈一下比例和率:比例是一个静态指标,说明的是在一个体中某种状态所占的百分比;率则像一个动态指标,一般发病率、死亡率都是需要经过一段时间的观察才能获得的;
五、中心极限定理
(1)中心极限定理的理论含义是:假定有一个总体数据,如果从总体中多次抽样,那么理论上,每次抽样所得的统计量(如均数)与总体参数(如均数)应该差别不大,大致围绕在总体参数(如均数)中心,并且呈正态分布;
(2)中心极限定理不是针对原始数据的,而是针对统计量的;
六、从“女士品茶”中领会假设检验——小概率反证法思想
(1)所谓女士品茶是对"把茶加入到奶里和把奶加入到茶中会使味道品起来不同"的观点进行验证。假设不具备这种能力,不同的顺序,喝多少杯等等不同条件下的验证;
(2)零假设或无效假设是指从正面作出假设(如这位女士不具备这种能力,两种药物的疗效没有差别),零假设的对立面是备择假设,零假设是想推翻的,备择假设是想证实的;
检验    假设
零假设(
备择假设(
差异性检验
bootstrap检验方法
线性回归分析    非劣性检验
(3)假设检验中的两类错误;
    含义    错误
型错误(假阳性错误)
型错误(假阴性错误)
医学诊断
误诊
漏诊
生产领域
生产者风险
消费者风险
(4)学术上来说,小概率思想是指小概率事件(P<0.01或P<0.05)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立,若可能性大,则还不能认为不假设成立。
七、参数估计——一叶落而知秋
参数估计主要有两种方式:点估计和区间估计。
(1)点估计:就是计算样本均数、方差等;
(2)最小二乘估计:主要用于线性回归的参数估计,思想是求一个使得实际值与模型估计值之差达到最小的值,将其作为参数估计值。示意图如下:
图 5
最小二乘法用公式表示为:,其中是实际值是回归方程,a和b是待求系数,分别为截距和斜率,最小二乘法就是到使得Q值最小的a和b。
(3)最大似然估计:就是最大可能的一个估计,我们获得样本数据,根据已知的样本结果,反推到一个估计值,使得最大可能出现现有结果。
(4)贝叶斯估计:是基于先验信息的一种估计方法,根据已有的一些经验,把经验纳入估计过程中,从而得到估计值。贝叶斯公式表示为:P(B|A)=,改为通俗易懂的形式:P(先验|现象)=
八、置信区间估计——给估计留点余地
(1)置信区间估计:参数估计的一种方式,从理论上来讲,95%置信区间的意思是如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个95%置信区间,那么我们期望会有95%的置信区间包含了总体参数。
(2)置信区间和P值的关系:置信区间的前缀数字称为置信系数,一般我们习惯用95%,置信系数越大,所得的区间越宽;置信系数越小,所得区间越窄。置信区间的宽窄反映了对参数估计的精确度,置信区间越窄,估计越准确;置信区间越宽,说明估计越不精确,但更为可靠。置信区间可以解释无效假设与计算结果的差值实际意义,还可以提示与无效
假设的参数偏离有多远。
(3)利用标准误计算置信区间:标准误是样本统计量的标准差,它反映了每次抽样样本之间的差异。如果标准误小,则说明多次重复抽样得到的统计量差别不大,提示抽样误差较小。标准误的计算公式se=s/,s表示样本标准差,n为样本例数。均数的置信区间为s/;率的置信区间为p±Z×
(4)利用Bootstrap法估计置信区间:
百分位数法:计算出所有Bootstrap样本统计量的第2.5百分位数和第97.5百分位数,将其作为95%置信区间
计算两个中位数之差的置信区间:从样本数据中重复抽取1000次样本,每次抽取n例,在每个Bootstrap样本中,计算两组的中位数之差,最终可计算出1000个中位数之差。然后根据这1000个中位数之差,计算出它们的第2.5百分位数 和第97.5百分位数,这就是两个中位数之差的置信区间。如果该置信区间不包含0,则可认为两组差异有统计学意义
计算回归系数的置信区间:假定样本数据有因变量y和自变量x,从样本数据中重复抽取1000次样本每个样本都包含y和x,每次抽取n例。在每个Bootstrap样本中,求出y=a+bx的系数a和b。最终可以计算出1000个回归系数b。然后根据这1000个回归系数,计算出它们的第2.5百分位数 和第97.5百分位数,这就是回归系数的95%置信区间。如果该置信区间不包含0,则可认为两组差异有统计学意义
第二篇实用篇
一、常用统计方法大串讲
(1)一般线性模型—方差分析与线性回归的统一
一般线性模型的基本形式为:y=,y称为因变量,也叫反应变量、结局变量等;称为自变量,也叫解释变量、预测变量等。模型中表示截距,反映了当自变量=0时y的均值;等表示斜率,反映了自变量每增加1个单位,y值的变动大小。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。