稀疏贝叶斯学习详解--证据和后验概率的计算
简介
稀疏贝叶斯学习(Sparse Bayesian Learning,SBL)是稀疏信号重构的⽅法之⼀,其性能相当于重加权的\ell_1范数恢复⽅法,并且不需要设置正则化参数,在⽬标定位,⽣物医学信号提取等⽅⾯被⼴泛应⽤。但是其涉及复杂的数学知识包括⾼斯函数、最⼤似然估计、向量求导、贝叶斯估计、EM算法等让很多⼈望⽽却步。笔者在学习此部分内容也曾花费⼤量时间,为解决⼩伙伴们的烦恼,本系列⽂章将详细解读稀疏贝叶斯学习的基本原理及其对应的数学推导,⼤致分为⼏块,包括证据和后验概率的计算、EM算法部分推导等。下⾯先对证据和后验概率的计算推导进⾏叙述。以下需要⽤到的数学基础包括⾼斯函数的基本性质、向量的求导。
模型
先考虑对⼀个向量的观测,假设有观测矩阵\bm{\Phi}\in C^{N\times M},对未知变量\bm{\omega}\in C^{M\times1}进⾏观测,记为
\bm{t}=\bm{\Phi}\bm{\omega}+\bm{\epsilon}\qquad(1)
式中t\in C^{N\times1},观测矩阵也称之为过完备基,这⾥假定\bm{\omega}是稀疏变量,即\bm{\omega}
的⼤部分元素都为0,\epsilon为观测噪声。SBL要解决的问题是根据已知的\bm{t}和{\bm{\Phi}}估计出\bm{\omega},其实就是稀疏信号的重构。
⾸先解释下贝叶斯公式:
p(\omega|t)=\frac{p(t|\omega)p(\omega)}{p(t)}\qquad
p(\omega)称之为先验概率,表⽰在观测之前的概率,p(\omega|t)称之为后验概率,是观测之后的概率,p(t|\omega)是似然概率,在求最⼤似然估计的时候就是使⽤的该概率形式,p(t)表⽰证据。很多情况下,我们要估计\bm{\omega}可由argmax_\omega p(\omega|x)求得,但上述后验概率不易求得。因证据p(x)与\bm{\omega}⽆关,上述后验概率最⼤化可由贝叶斯公式转化为似然概率和先验概率的乘积的最⼤化求得,即argmax_\omega p(x|\omega)p(\omega)。
证据推导
SBL采⽤了神经⽹络⾥常⽤的⾃动相关决策理论(Automatic Relevance Determination)来获取稀疏解。⾸先假定\bm{\epsilon}符合均值为0,⽅差为\sigma^2\bm{I}_N的⾼斯分布,则可得出\bm{t}符合均值为\bm{\Phi}\bm{\omega},⽅差为\sigma^2\bm{I}_N的⾼斯分布,即
p(\bm{t}|\bm{\omega})=(2\pi\sigma^2)^{-N/2}exp[-\frac{1}{2\sigma^2}(\bm{t}-\bm{\Phi\omega})^H(\bm{t}-
\bm{\Phi\omega})]\qquad(2)
根据ARD,其假定\bm{\omega}由超参数\bm{\gamma}产⽣,假定其\omega_i由\gamma_i控制,并符合均值为0,⽅差为\gamma_i的⾼斯分布,即
p(\bm{\omega};\bm{\gamma})=(2\pi)^{\frac{-M}{2}}\left|\bm{\Gamma}\right|^{-\frac{1}{2}}e^{-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-
1}\omega}}\qquad(3)
式中\bm{\Gamma}=diag(\bm{\gamma})。
利⽤全概率公式即可得第⼆类似然函数为
p(\bm{t};\bm{\gamma})=\int _{\bm{\omega}}{p(\bm{t}|\bm{\omega})p(\bm{\omega};\bm{\gamma})d\bm{\omega}}
将(2)和(3)代⼊到(4)中,可得
p(\bm{t};\bm{\gamma})=\int_{\bm{\omega}}(2\pi\sigma^2)^{-N/2}(2\pi)^{-M/2}\left|\bm{\Gamma}\right|^{-
\frac{1}{2}}exp[-\frac{1}{2\sigma^2} (\bm{t}-\bm{\Phi\omega})^H(\bm{t}-\bm{\Phi\omega})-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-1}\omega}]d\bm{\omega}
其实该式可以看成两个⾼斯函数进⾏卷积,根据⾼斯函数性质知,两个⾼斯函数卷积的结果仍为⾼斯函数。所以只需要求得卷积后的⾼斯函数的均值和期望,就相当于求出上式的积分了。
取其指数,令
L=-\frac{1}{2\sigma^2}(\bm{t}-\bm{\Phi\omega})^H(\bm{t}-\bm{\Phi\omega})-\frac{1}{2}\bm{\omega}^H\bm{\Gamma^{-1}\omega} \qquad(5)
进⼀步,可以得到
L=-\frac{1}{2\sigma^2}[\bm{\omega}^H(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})\bm{\omega}-\bm{t}^H\bm{\Phi}\bm{\omega}-
\bm{\omega}^H\bm{\Phi}^H\bm{t}+\bm{t}^H\bm{t}]
L是关于\bm{\omega}的⼆次项。这⾥求解上述积分要⽤到⾼斯函数的以下性质:
\int_{\bm{\omega}}e^{-(\bm{A\omega}+\bm{b})^2}d\bm{\omega}=C
式中\bm{A}是矩阵,\bm{b}是向量,其维数应满⾜上式的乘法规则。C是常数,具体是多少,我们可以不关注,感兴趣的话可以⾃⼰推导或查阅相关⽂献。我们需要关注的是似然函数对\bm{\omega}积分后\bm{t}项和\sigma项。现在的问题是我们需要将L表达成-
(\bm{A\omega}+\bm{b})^2+f(t,\sigma^2)的样式,并求得f(t,\sigma^2)。显然,我们将满⾜\bm{A\omega}+\bm{b}=\bm{0}的\bm{\omega}代⼊其中,即得到f(t,\sigma^2)。先求\bm{\omega},下⾯通过求导完成。
\frac{dL}{d\bm{\omega}}=\frac{1}{\sigma^2}[(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})\bm{\omega}-\bm{\Phi}^H\bm{t}]
令\frac{dL}{d\bm{\omega}}=0可得
\bm{\omega}=(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H\bm{t}\qquad(6)
将(6)代⼊(5)中,得到
L=-\frac{1}{2\sigma^2}\bm{t}^H[\bm{I}-\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H]\bm{t}
因此全概率公式积分后得
p(\bm{t};\bm{\gamma})=Cexp\{-\frac{1}{2\sigma^2}\bm{t}^H[\bm{I}-\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-
1}\bm{\Phi}^H]\bm{t}\}
现在可以看出p(\bm{t};\bm{\gamma})是⼀个⾼斯分布,其均值为\bm{0},协⽅差矩阵\Sigma_t满⾜\Sigma_t^{-1}=\frac{1}{\sigma^2}[\bm{I}-
\bm{\Phi}(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H].
\Sigma_t可由矩阵求逆公式得到,如下:
\Sigma_t=\sigma^2 \bm{I}+\bm{\Phi\Gamma\Phi}^H
到此,我们完成了证据或者叫第⼆类似然函数的概率分布的推导。
后验概率推导
下⾯我们继续完成后验概率的推导,根据贝叶斯公式,有
p(\bm{\omega}|\bm{t};\bm{\gamma})=\frac{p(\bm{t}|\bm{\omega})p(\bm{\omega};\bm{\gamma})}{p(\bm{t};\bm{\gamma})} \qquad(7)
其实利⽤前⾯的结果,该式⼤部分都求得差不多了。证据(分母部分)已求得。分⼦部分是两个⾼斯概率密度函数的乘积,其结果仍为⾼斯分布。再与分母部分相除,最终还是为⾼斯分布。将前⾯求得的结果分别代⼊到(7), 忽略常数部分,得
p(\bm{\omega}|\bm{t};\bm{\gamma})=exp\{-\frac{1}{2\sigma^2}[\bm{\omega}^H(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-
1})\bm{\omega}-\bm{t}^H\bm{\Phi}\bm{\omega}-\bm{\omega}^H\bm{\Phi}^H\bm{t}+\bm{t}^H\bm{t}]+\frac{1}{2}\bm{t}^H\bm{\Sigma}^{-
1}\bm{t}\}
其均值为指数部分对\bm{\omega}的⼀阶导数零点,协⽅差矩阵的逆为指数部分对\bm{\omega}的⼆阶导数。
\Sigma_{\omega}^{-1}=\frac{1}{\sigma^2}\bm{\Phi}^H\bm{\Phi}+\bm{\Gamma}^{-1}
\bm{\mu_{\omega}}=(\bm{\Phi}^H\bm{\Phi}+\sigma^2\bm{\Gamma}^{-1})^{-1}\bm{\Phi}^H\bm{t}\label{omega}
⼀般情况下,M往往远⼤于N,所以求\bm{\Sigma_{\omega}}的逆的复杂度远远⾼于\bm{\Sigma_t}的逆的复杂度,所以运⽤矩阵和求逆公式
将\bm{\Sigma_{\omega}^{-1}}转化为求\bm{\Sigma_t^{-1}}.结果如下:
\Sigma_{\omega}=\bm{\Gamma}-\bm{\Gamma\Phi}^H\bm{\Sigma}_t^{-1}\bm{\Phi\Gamma}
\bm{\mu_{\omega}}=\bm{\Gamma\Phi}^H\bm{\Sigma}_t^{-1}\bm{t}
⾄此,关于稀疏贝叶斯算法中的证据和后验概率的推导解释完毕,对于多测量模式下(Multiple Mearsure Vector)的推导可以直接拓展过来,这⾥不进⾏详述,可以参考相关⽂献。
Reference
第一范式正则化不能产生稀疏解
[1] D. P. Wipf and B. D. Rao, "Sparse Bayesian learning for basis selection," IEEE Transactions on Signal Processing, vol. 52, no. 8, pp. 2153-2164, 2004.
[2] D. P. Wipf and B. D. Rao, "An empirical Bayesian strategy for solving the simultaneous sparse approximation problem," IEEE Transactions on Signal Processing, vol. 55, no. 7, pp. 3704-3716, 2007.
附矩阵求逆公式
(A+UBV)^{-1}=A^{-1}-A^{-1}UB(I+VA^{-1}UB)^{-1}VA^{-1}
Processing math: 0%

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。