贝叶斯统计知识整理
第⼀章先验分布和后验分布
统计学有两个主要学派,频率学派与贝叶斯学派。频率学派的观点:统计推断是根据样本信息对总体分布或总体的特征数进⾏推断,这⾥⽤到两种信息:总体信息和样本信息;贝叶斯学派的观点:除了上述两种信息以外,统计推断还应该使⽤第三种信息:先验信息。贝叶斯统计就是利⽤先验信息、总体信息和样本信息进⾏相应的统计推断。
1.1三种信息
(1)总体信息:总体分布或所属分布族提供给我们的信息
(2)样本信息:从总体抽取的样本提供给我们的信息
(3)先验信息:在抽样之前有关统计推断的⼀些信息
1.2贝叶斯公式
⼀、贝叶斯公式的三种形式
(⼀)贝叶斯公式的事件形式
假定k A A ,,1 是互不相容的事件,它们之和i k
i A 1= 包含事件B ,即i k
i A B 1=? 则有:∑==k
i i
i i i i A B P A P A B P A P B A P 1)()()
()()((⼆)贝叶斯公式的密度函数形式
1.贝叶斯学派的⼀些具体思想
假设I :随机变量X 有⼀个密度函数);(θx p ,其中θ是⼀个参数,不同的θ对应不同的密度函数,故从贝叶斯观点看,);(θx p 是在给定θ后的⼀个条件密度函数,因此记为)(θx p 更恰当⼀些。在贝叶斯统计中记为)(θx p 它表⽰在随机变量θ给定某个值时,总体指标X 的条件分布。这个条件密度能提供我们的有关的θ信息就是总体信息。
假设II :当给定θ后,从总体)(θx p 中随机抽取⼀个样本X1,…,Xn ,该
样本中含有θ的有关信息。这种信息就是样本信息。
假设III :从贝叶斯观点来看,未知参数θ是⼀个随机变量。⽽描述这个随机变量的分布可从先验信息中归纳出来,这个分布称为先验分布,其密度函数⽤)(θπ表⽰。
2.先验分布
定义1:将总体中的未知参数Θ∈θ看成⼀取值于Θ的随机变量,它有⼀概率分布,记为)(θπ,称为参数θ的先验分布。
3.后验分布
(1)从贝叶斯观点看,样本x =(1x ,…,n x )的产⽣要分两步进⾏。⾸先设想从先验分布)(θπ产⽣⼀个样本θ',这⼀步是“⽼天爷”做的,⼈们是看不到的,故⽤“设想”⼆字。第⼆部是从总体分布p (x |θ')产⽣⼀个样本x =(1x ,…,n x ),这个样本是具体的,⼈们能看到的,此样本x 发⽣的概率是与如下联合密度函数成正⽐。
∏='='n
i i x p x p 1)
()(θθ这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为)(θ'L 。频率学派和贝叶斯学派都承认似然函数,两派认为:在有了样本观察值x =(1x ,…,n x )后,总体和样本中所含θ的信息都被包含在似然函数)(θ'L 之中,可在使⽤似然函数作统计推断时,两派之间还是有差异的。
(2)由于θ'是设想出来的,它仍然是未知的,它是按先验分布)(θπ⽽产⽣的,要把先验信息进⾏综合,不能只考虑θ',⽽应对θ的⼀切可能加以考虑。故要⽤)(θπ参与进⼀步综合。这样⼀来,样本x 和参数θ的联合分布
θθ)(),(x p x h =把三种可⽤的信息都综合进去了。
(3)我们的任务是要求未知数θ做出统计推断。在没有样本信息时,⼈们
只能据先验分布对θ作出推断。在有样本观察值x =(1x ,…,n x )之后,我们依据),(θx h 对θ作出推断。为此我们需把),(θx h 作如下分解:
)
()(),(x m x x h θπθ=其中m (x )是x 的边缘密度函数。
Θ
Θ==)
()(),()(θπθθθx p d x h x m 它与θ⽆关,或者说,m (x )中不含θ的任何信息。因此能⽤来对θ作出推断的仅是条件分布)(x θπ。它的计算公式是
θ
θπθθπθθθπ?Θ==d x p x p x m x h x )()|()
()|()()|()|(这就是贝叶斯公式的密度函数形式。这个在样本x 给定下,θ的条件分布),,(1n x x θπ被称为θ的后验分布。它是集中了总体、样本和先验等三种信息中有关θ的⼀切信息,⽽⼜是排除⼀切与θ⽆关的信息之后所得到的的结果。
(三)贝叶斯公式的离散形式
θ是离散随机变量时,先验分布可⽤先验分布列)(i θπ,i =1,2,…,表⽰。这时后验分布也是离散形式。
,2,1)
()|()()|()|(==∑i x p x p x j
j j i i i ,θπθθπθθπ假如总体X 也是离散的,那只要把上述中的密度函数)(θx p 看作为概率函数)(θx x p ==即可。
⼆、后验分布是三种信息的综合
⼀般来说,先验分布)(θπ是反映⼈们在抽样前对θ的认识,后验分布)(x θπ是反映了⼈们在抽样后对θ的认识,之间的差异是由于样本X 出现后⼈们对θ认识的⼀种调整。所以后验分布)(x θπ可以看作是⼈们⽤总体信息和样本信息(综合称为抽样信息)对先验分布)(θπ作调整的结果。所以对θ的统计推断就应建⽴在后验分布)(x θπ的基础上。
2/1=λ三、伽玛分布与贝塔分布
(⼀)伽马分布:
1.伽马函数:
dx e x x -+∞
-?=Γ01αα)(0>α2.伽马函数的性质:
!
)1(3)()1(2)2
1(
;1)1(1n n n =+ΓΓ=+Γ=Γ=Γ时,为⾃然数)()()(ααααπ3.伽马分布
若随机变量X 具有概率密度函数:
<≥Γ=--0
,00,)
()(1x x e x x p x λαααλ则称X 服从伽玛分布,记作),(λαGa ~X .其中0>α为形状参数,0>λ为尺度参数。
201)(1)()1()()(λ
αλααααλλα==Γ+Γ=Γ=?∞+--X Var e x X E x 4.伽马分布的特性
(1)当α=1,伽玛分布就是指数分布
(2)当α=1/2时,伽马分布称为⾃由度为n 的卡⽅分布。
(⼆)贝塔分布
1.贝塔函数
dx x x b a B b a 111
0)1(),(---=?称为贝塔函数,其中参数a >0,b >0
贝塔函数的性质
)
()()(),()2()
,(),(1b a b a b a B a b B b a B +ΓΓΓ==)(3.贝塔分布
若随机变量X 具有概率密度函数:
11()(1), 01()()
() 0, a b a b x x x a b p x --Γ+?-≤≤?ΓΓ=
其它那么称服从贝塔分布,记作),(b X a Be ~,其中参数a >0,b >0。
)1(b)(a X Var b
a a )1()()()(E(X)21011+++=+=-+ΓΓΓ=
--b a ab dx x x b a b a b a )(4.贝塔分布的特性
如果a =b =1,那么X 服从[0,1]上的均匀分布。
1.3共轭先验分布
⼀、共轭先验分布
1.定义1.1
设θ是总体分布中的参数(或参数向量),)(θπ是θ的先验密度函数,假如由抽样信息算的后验密度函数与)(θπ有相同的函数形式,则称)(θπ是θ的(⾃然)共轭先验分布。如⼆项分布b (n ,θ)中的成功概率θ的先验分布若取Be (1,1),则其后验分布也是贝塔分布Be (x +1,n -x +1);把θ的先验分布换成⼀般的贝塔分布),(β
αBe ,其中00>>βα,θ的后验分布仍是贝塔分布),(x n x Be -++βα。所以此种先验分布被称为θ的共轭先验分布
应着重指出,共轭先验分布是对某⼀分布中的参数⽽⾔的。如正态均值、正态⽅差、泊松均值等。离开指定参数及其所在的分布区谈论共轭先验分布是没有意义的。
2.正态均值(⽅差已知)的共轭先验分布是正态分布。
设x1,x2,…,xn 是来⾃正态分布)
(2,N σθ的⼀个样本观察值。其中2σ已知。此样本的似然函数为:
--??? ??=∑=n i
i n x x p 122)(21exp 21)
(θσσπθ取另⼀正态分布),(2N τµ作为正态均值θ的先验分布,即
+∞<<∞?
--=θτµθτπθπ-2)(exp 2122,)(其中µ2τ为已知。由此可知联合密度函数以及样本x 的边际密度函数为
/122),()(??? ??==?∞+∞-A k dx x h x m πθ参数θ的后验分布为
+∞<<∞?
--??? ??=-θθπθπ,-/2)/(exp 2)22/1A A B A x (这是均值为1µ⽅差为21τ的正态分布,其中
220212
202
2011
11
τσττσµτσµ+=++=----x 这说明了正态均值(⽅差已知)的共轭先验分布是正态分布。
⼆、后验分布的计算
1.在给定样本分布)(θx p 和先验分布)(θπ后可⽤贝叶斯共识计算θ的后验分布
由于m (x )不依赖于θ,在计算θ的后验分布中仅起到⼀个正则化因⼦的作⽤。因此把m (x )省略,贝叶斯公式可⽤改写为如下等价形式
其中符号“”表⽰两边仅差⼀个常数因⼦,⼀个不依赖于θ的常数因⼦。
右端虽不是正常的密度函数,但他是后验分布)(x θπ的核,在需要时可以利⽤适当的⽅式计算出后验密度,特别当看出)
正则化统计()(θπθπx 的核就是某常⽤分布的核时,不⽤计算m (x )就可很快恢复所缺常数因⼦。
2.⼆项分布中的成功概率θ的共轭先验分布是贝塔分布。
设总体),(~θn b X ,其密度函数中与θ有关的部分为x n x --)1(θθ。⼜设θ的先验分布为贝塔分布),(βαBe ,其核为11)1(---
βαθθ,其中α,β已知,从⽽可写出θ的后验分布
⽴即可以看出,这是贝塔分布的核,故此后验密度为
1
1)1()
()()()(--+-+--+Γ+Γ++Γ=x n x x n x n x βαθθβαβαθπ三、共轭先验分布的优缺点
1.共轭先验分布在很多场合被采⽤,因为它有两个优点:
(1)计算⽅便,这可从上⾯的例⼦中体会
(2)后验分布的⼀些参数可得到很好的解释。
2.正态均值θ的共轭先验分布为正态分布例⼦中
其后验均值可以改写为:
这表明后验均值是在先验均值与样本均值间采取折衷⽅案。
在处理正态分布时,⽅差的倒数发挥着重要的作⽤,并称其为精度,于是在正态均值的共轭先验分布的讨论中,其后验⽅差21τ所满⾜的等式
这可以解释为后验分布的精度是样本均值分布的精度与先验分布精度之和,增加样本量n 或减少先验分布⽅差都有利于提⾼后
验分布的精度。
2.在⼆项分布的成功概率的共轭先验分布是贝塔分布中
后验分布),(Be x n x -++βα的均值与⽅差也可写成:
1
]E 1[E )1()())(()()1(E 2+++-=+++++-++=+-+=+++=n x x n n x n x x Var n x n x x βαθθβαβαβαθβ
ααγγβααθ)()()(其中)/(n n ++=βαγ,n x /是样本均值,)/(βαα+是先验均值,从上述加权均值可见,后验均值是介于样本均值与先验均值之间,它偏向另⼀侧由γ的⼤⼩决定的。另外,当n 与x 都较⼤,n x /接近某个常数时,我们有
)1(1)(E n x n x n x Var n x
x -≈≈
θθ)(这表明,当样本量增⼤时,后验均值主要决定于样本均值,⽽后验⽅差愈来愈⼩。这时后验密度曲线的变化可从图中看出,随着x 与n 成⽐例增加时,后验分布愈来愈向⽐率n x /
集中,这时先验信息对后验分布的影响将愈来愈⼩。
4.在贝叶斯统计中,先验分布的选择应以合理性作为⾸要原则,计算上的⽅便与先验的合理性相⽐还是第⼆位的。在考虑到先验的合理性之后,充分发挥共轭先验分布是常采⽤的策略。
四、常⽤的共轭先验分布共轭先验分布的选取是由似然函数)()(θθx p L 中所含θ的因式所决定的,即选与似然函数(θ的函数)具有相同核的分布作为先验分布。若此想法得以实现,那共轭先验分布就产⽣了。
在实际中常⽤的共轭先验分布列于表1.1。
表1.1常⽤共轭先验分布
1.4超参数及其确定
⼀、超参数
定义:先验分布中所含的未知参数称为超参数。譬如,成功概率的共轭先验分布是贝塔分布),(βαBe ,它含有两个超参数。⼀般说来,共轭先验分布常含有超参数,⽽⽆信息先验分布(如均匀分布U (0,1))⼀般不含有超参数。
⼆、估计⽅法
共轭先验分布是⼀种有信息的先验分布,故其中所含的超参数应充分利⽤各种先验信息来确定它。
(⼀)利⽤先验矩
假如根据先验信息能获得成功概率θ的若⼲个估计值,记为1θ,2θ,…,k θ,⼀般它们是从历史数据整理加⼯获得的,由此可算得先验均值θ和先验⽅差2θS ,其中
然后令其分别等于贝塔分布的期望与⽅差,即
解之,可得超参数的估计值
(⼆)利⽤先验分位数
假如根据先验信息可以确定贝塔分布的⼆个分位数,则可⽤这⼆个分位数来确定α与β,譬如⽤⼆个上、下四分位数u θ与L θ来确定α与β,u θ与L θ分别满⾜如下两个⽅程

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。