数理统计5:指数分布的参数估计,Gamma 分布,Gamma 分布与其他分布的联系
今天的主⾓是指数分布,由此导出Γ分布,同样,读者应尝试⼀边阅读,⼀边独⽴推导出本⽂的结论。由于本系列为我独⾃完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!
⽬录
Part 1:指数分布的参数估计
指数分布是单参数分布族,总体X ∼E (λ)有时也记作Exp(λ),此时的总体密度函数为
f (x )=λe −λx I x >0.
现寻其充分统计量,样本联合密度函数为
f (x )=
λn exp
−λn
j =1x
j I x 1>0⋯I x n >0
=λn e −n λ¯x
I x
正则化统计
(1)>0
,
由因⼦分解定理,取
g (¯x
,λ)=λn e −n λ¯x
,h (x )=I x (1)>0,
可以得到¯X
是λ的充分统计量。但是指数分布的参数并⾮均值,⽽是均值的倒数,所以对¯X 也有E(¯X
)=E(X )=1λ.注意,千万不要想当然地认为期望和⼀般的函数之间是可交换的,即⼀般来说E[f (X )]≠f [E(X )],所以你不能认为¯X
−1
就是λ的⽆偏估计量。每到此时,我就想举对数正态分布的例⼦:X ∼N (0,σ2),求e X 的期望。显然有
E(e X )=∫∞
−∞e x
1
2πσ2
exp −x 2
2σ2
d x
=∫∞
−∞
1
2πσ2
exp −
x 2−2σ2x 2σ2
d x
=e
σ2
2
∫∞
−∞
1
2πσ2
exp −
(x −σ2)22σ2
d x
=e σ2
2.
最后⼀个等号处,积分是N (σ2,σ2)的密度函数全积分为1。这说明
E(e X )=e
σ2
2
≠1=e E(X ).
同样,也能告诉我们股票的波动率越⼤,期望收益也越⼤。
但是,⽤¯X −1总是有⼀定道理的,⾄少在量级上保持了跟待估参数的⼀致性。如果我们要进⾏⽆偏调整,则需要求出¯X 的具体密度。不妨设T =∑n j =1X j
,则T =n ¯X ,如果我们能求出T 的分布,也⼀样能得出¯X
−1的期望。
Part 2:独⽴同分布指数分布之和与Γ分布
为求T 的分布,引⼊⼀个Jacobi ⾏列式为1的线性变换:
Y 1=X 1,Y 2=X 2,⋮
Y n −1=X n −1,Y n =X 1+⋯+X n .
则(Y 1,⋯,Y n )的联合密度函数为
f Y (y )=f X (y 1,⋯,y n −1,y n −y n −1−⋯−y 1)
=
λn exp
−λ
n −1∑
j =1
y j +y n −n −1
j =1y j
I y 1>0⋯I y n −1>0I y n >∑n −1j =1
y j
=λn e −λy n I y 1>0⋯I y n −1>0I y n >∑n −1j =1
y j .
接下来要依次对y 1,⋯,y n −1作积分,为⽅便计,记
{}
{}
{
}
{
}
{
{[(
)]}
Processing math: 58%
k
=y n −
n −1
j =k y j
,
k =1,2,⋯,n −1,
k +1−
k
=y k .
现在,y 1的积分范围是(0,y n −y n −1−⋯−y 2)=(0,2),即
f Y
2,⋯,Y n
(y 2,⋯,y n )=λn e −λy n
2I y 2>0⋯I y n −1>0I 2>0.
再对y 2积分,其积分范围是(0,
3),即
f Y
3,⋯,Y n
(y 3,⋯,y n )
=λn e −λy n ∫3
2d y 2=λn e −λy n ∫30(
3−y 2)d y 2
=λn e −λy n ⋅23
2I y
3>0
⋯I y
n −1>0
I
3>0
.
继续下去的步骤就很机械了,对y 3积分时积分范围是(0,
4),所以
f Y 4,⋯,Y n
(y 4,⋯,y n )
=1
2λn e −λy n ∫40[4−y 3]
2d y
3
=1
2λn e −λy n ∫4
0[4−y 3]
2d(
4−y 3)
=1
2⋅3λn e −λy n
3
4I y 4>0⋯I y n −1>0I 4>0.
将这个过程⼀直进⾏下去,容易得到
f Y n −1,Y n (y n −1,y n )=1
(n −2)!λn e −λy n
n −2
n −1I y n −1>0I y n >y n −1,
进⾏最后⼀次积分就能得到T 的密度函数为
f T (x )=1
(n −1)!λn e −λx x n −1.
这⾥有⼀个稍微有点耍赖的技巧。如果你不想⼀个个积分,⽽⼜记住了指数分布和的密度函数形式,则可以⽤数学归纳法验证指数分布和的密度函数恰有如此的形式。
读者可以⾃⾏⽤数学归纳法计算⼀遍,这个计算量是⽐较⼩的。
同样,我们以后会经常跟这个密度函数打交道。因为阶乘只适⽤于整数,将其解析延拓到R +上有(n −1)!=Γ(n ),注意到其核为e −λx x n −1,对于任意n >0,λ>0,有
∫∞
0e −λx x n −1d x =∫
∞0
1
λn e −λx
(λx )n −1d(λx )=Γ(n )
λn ,
所以其正则化因⼦为λn
Γ(n )。现在我们可以正式给出Γ分布的定义:称X ∼Γ(n ,λ),如果X 具有如下的密度函数:
p (x )=λn
Γ(n )x n −1e −λx .
当n 为整数时,Γ(n )=(n −1)!。同时,我们得到⼀个重要结论:若X 1,⋯,X n i.i.d.
∼E (λ),则
T =
n
j =1X
j
∼Γ(n ,λ).
Tlst <- c()
for (i in 1:100000){
Tlst[i] <- sum(rexp(5, 3))  # T 为5个E(3)样本之和}
plot(density(Tlst), main = "T 的样本密度", col = "blue", xlim = c(0, 6))xlst <- seq(0, 6, 0.00001)ylst <- dgamma(xlst, 5, 3)lines(xlst, ylst, col = "red")
由于Γ分布核函数的特点,其期望和⽅差也是容易求出的。现设X ∼Γ(n ),则
E(X )=∫
∞0
λn
Γ(n )x n e −λx
d x =Γ(n +1)λΓ(n )
∞0
λn +1
Γ(n +1)x n +1−1e −λx
d x =n λ.
这说明n越⼤X的期望越⼤,λ越⼤X的期望越⼩,如果将其视为独⽴指数分布的和也能得到这个结论。
E(X2)=Γ(n+2)
λ2Γ(n)=
n(n+1)
λ2,D(X)=E(X2)−[E(X)]2=
n
λ2.
现在回到正题,计算指数分布均值倒数
¯X−1的期望,先计算T−1的期望,容易计算得到
E(T−1)=∫∞0
λn
Γ(n)x n−2e−λx d x=
λΓ(n−1)
Γ(n)=
λ
n−1,
因此⾃然有
\mathbb{E}\left(\frac{1}{\bar X} \right)=\mathbb{E}\left(\frac{n}{T} \right)=\frac{\lambda n}{n-1}.
因此,\bar X^{-1}只是\lambda的渐进⽆偏估计,可以对它经过⽆偏处理得到⽆偏估计:
\hat\lambda(\boldsymbol{X})=\frac{n-1}{n\bar X}.
下⾯进⾏\hat \lambda的有偏估计、⽆偏估计的模拟计算,从指数分布E(2)中抽样。为了体现出区别,图中的每⼀个点都是100个估计量的平均值。
rm(list = ls())
unbiased_estimator <- c()
biased_estimator <- c()
for (j in 1:100){
meanlst <- c()
for (i in 1:100){
samples <- rexp(10, 2)  # 每次产⽣10个样本计算均值
meanlst[i] <- 1/mean(samples)
}
biased_estimator[j] <- mean(meanlst)
unbiased_estimator[j] <- 9/10*biased_estimator[j]
}
split.screen(c(1, 2))
screen(1)
plot(biased_estimator, main = "有偏估计", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")
screen(2)
plot(unbiased_estimator, main = "⽆偏估计", ylim = c(1.5, 2.5))
abline(h = 2, col = "blue")
Part 3:\Gamma分布与其他分布
\Gamma分布与许多分布具有紧密的联系(中⼼极限定理这种与正态分布的联系就不说了)。与指数分布的联系是显然的:\Gamma(1,\lambda)就
是E(\lambda),这点从上⾯的推导可以得出。
需要注意⼀点:指数分布的参数是其尺度参数。什么意思呢?对于X\sim E(\lambda),它的分布函数是F(x)=1-e^{-\lambda x},对其作伸缩变换aX,有
F_{aX}(x)=\mathbb{P}(aX<x)=F\left(\frac{x}{a} \right)=1- e^{-\frac{\lambda x}{a}},
对⽐F(x)的形式,发现aX\sim E(\lambda /a),这就代表伸缩变换不改变指数分布的性质,所以说指数分布的参数是其尺度参数。既然\Gamma分布是指数分布的直接推⼴,则\Gamma分布也具有这样的性质:若X\sim \Gamma(n,\lambda),则
aX\sim \Gamma\left(n,\frac{\lambda }{a} \right).
这样的变换不改变数量参数n,这也是指数分布中得到的直接推⼴结论。
还记得正态分布的衍⽣分布——\chi^2(n)分布吗?之前,因为卡⽅分布的密度函数过于复杂,不好记忆,所以我们跳过了,但了解过\Gamma分布的密度函数后再回看卡⽅分布,就会有⼀种熟悉感。
对于X\sim \chi^2(n),其密度函数为
p(x)=\frac{1}{2^{n/2}\Gamma(n/2)}x^{\frac{n}{2}-1}e^{-\frac{x}{2}},
可以看到,它的核刚好是e^{-x}的某次⽅,乘以x的某次⽅形式,前⾯的正则化系数由核决定,因此,\chi^2(n)分布本质上也是\Gamma分布的⼀种特例,即
X\sim \Gamma\left(\frac{n}{2},\frac{1}{2} \right).
这样,再记忆\chi^2(n)分布的密度函数就会显得容易⼀些了。另外,如果2n是整数,也可以通过\Gamma分布的伸缩变换将其变成卡⽅分布:
X\sim \Gamma(n,\lambda)\Rightarrow 2\lambda X\sim \Gamma\left(n,\frac{1}{2} \right)=\chi^2(2n),\\ X\sim E(\lambda)\Rightarrow 2\lambda X\sim \chi^2(2).最后,由于我们接下来要进⼊离散分布的参数估计,在这⾥也给出⼀个\Gamma分布与泊松分布的联系,这个联系在随机过程中会发挥⼀定的作⽤,其证明在数理统计中倒不是特别重要。
若N定义为满⾜下列条件的n值:X_1,X_2,\cdots\stackrel{\mathrm{i.i.d.}}\sim E(\lambda),
\sum_{j=1}^n X_j\le 1<\sum_{j=1}^{n+1}X_j
则N\sim P(\lambda)。
下⾯给出这个定理的证明,其中的思想可以学习。
设\sum_{j=1}^k X_j的密度函数为p_k(x),则由于\sum _{j=1}^k X_j\sim \Gamma(k,\lambda),所以
p_k(x)=\frac{\lambda^k}{\Gamma(n)}x^{k-1}e^{-\lambda x}.
由全概率公式(连续形式),
\begin{aligned} &\quad \mathbb{P}(N=k)\\ &=\mathbb{P}\left(\sum_{j=1}^kX_i\le 1,\sum_{j=1}^{k+1}X_i>1 \right)\\
&=\int_0^1\mathbb{P}\left(\sum_{j=1}^{k+1} X_j>1\bigg|\sum_{j=1}^k X_i=x \right)p_k(x)\mathrm{d}x\\ &=\int_0^1\mathbb{P}(X_{k+1}>1-
x)p_k(x)\mathbb{d}x\\ &=\int_0^1e^{-\lambda {(1-x)}}\frac{\lambda^k}{(k-1)!}x^{k-1}e^{-\lambda x}\mathrm{d}x\\ &=\frac{\lambda^k e^{-\lambda}}{(k-
1)!}\int_0^1 x^{k-1}\mathrm{d}x\\ &=\frac{\lambda^k}{k!}e^{-\lambda}. \end{aligned}
这是泊松分布的分布列,故N\sim P(\lambda)。
在上⾯两篇⽂章中,将连续分布的点估计进⾏了详细的讨论,并引出了次序统计量的分布,介绍了\Gam
ma分布与\beta分布。接下来,我们将转向离散型分布的参数点估计,看看离散形式下因⼦分解定理应当如何使⽤。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。