Beta回归模型基于EM算法的变量选择方法--688IT编程网

Beta回归模型基于EM算法的变量选择方法

王玲;赵为华

【摘要】本文针对响应变量取值为(0,1)区间上的比例数据研究Beta回归模型的贝叶斯变量选择方法.首先通过选取合适的先验分布,基于贝叶斯随机搜索和EM方法提出了参数的估计算法;然后根据回归系数相应的指示变量后验分布提出了重要变量选择的门限准则,所提方法具有易实施、快速计算等特点;最后通过研究中国上市公司股息率实际数据的影响因素以说明所提方法的有效性.

【期刊名称】《安徽师范大学学报（自然科学版）》

【年(卷),期】2019(042)001

【总页数】6页(P16-21)

【关键词】Beta回归模型;EM算法;贝叶斯变量选择

【作者】王玲;赵为华

【作者单位】南通大学理学院,江苏南通226019;南通大学理学院,江苏南通226019

【正文语种】中文

【中图分类】O212

引言

在对众多领域的实际问题进行统计分析时，取值在(0,1)区间上的比例数据是很常见的，比如股息率、考试通过率、工作效率、次品率以及资本比率等。对于(0,1)上的连续分布，最简单明确的方法是线性回归建模，并用普通最小二乘法估计回归系数。然而线性回归并不能保证拟合值或预测值完全落在区间(0,1)内，这使得结果很难解释，还会产生异方差问题。因此对分数响应变量建模时，直接线性回归是不合适的。为此，Ferrari 和CribariNeto(2004)针对这样的响应变量提出了Beta回归模型，对Beta分布的密度函数进行参数重变换后，y～Beta(μ,φ),即

其中0<μ<1，φ>0,通过链接函数建立了Beta均值回归模型

(1)

其中β=(β0,β1,…,βk)T是一个未知回归参数向量，x1,…,xk是k个解释变量。由于Beta分布是一个双参数的分布，因此利用Beta回归刻画比例数据具有很好的灵活性。

在初始回归建模时通常引入许多解释变量去拟合响应变量。然而，这些潜在的解释变量中通常只有一小部分对响应变量有影响，而大部分解释变量的影响都是非常小甚至为零的。选择重要的变量以达到精简模型、提高预测精度近年来成为重要的话题。已有的很多文献都是基于惩罚函数的正则化变量选择方法，如LASSO，SCAD、MCP等罚函数方法。就基于Beta回归模型的变量选择而言，方匡南和王秉权(2016)基于SCAD罚函数方法研究正则化Beta回归；Zhao等(2014)基于坐标算法提出了变散度Beta回归模型的变量选择问题。事实上，变量选择问题是一个有挑战性的任务，在任意实际数据集中，真实的回归系数要么为零要么很大是不可能的，通常是趋向于零。因此，问题不在于到零系数，而是到那些足够小到可以认为不重要的系数，把它们缩小到零。最近兴起的贝叶斯变量选择方法相比于基于惩罚函数的变量选择方法具有更多的优势，主要体现在：(1)惩罚函数的变量选择方法需要选择惩罚参数，惩罚参数通常通过一些准则或交叉核实方法获得，惩罚参数选择的好坏影响最终的结果，对于复杂的模型很难得到满意的结果，而贝叶斯方法通过选取合适的先验进而通过后验分布的抽样或经验贝叶斯方法获取，得到的结果相对比较可靠；(2)贝叶斯变量选择方法能得

到参数的全后验分布而不是单个估计值，因而对估计参数的了解更全面，进而易得参数的可信区间估计及其他感兴趣变量的估计；(3)对于小样本数据，经典的统计方法往往不够准确,贝叶斯方法由于利用数据的先验信息从而使得估计和推断精度较高。近几年贝叶斯变量选择方法受到广大研究者的青睐，在计量经济、金融统计、数据挖掘、模式识别、人工智能等领域有很好的应用。基于随机搜索的贝叶斯变量选择方法最早由George和Mcculloch(1997)提出，是一种目前比较流行的贝叶斯变量选择方法。

然而贝叶斯变量选择方法需要基于后验分布进行大量耗时的抽样，计算成本很高，且当某些参数后验分布难以抽样时，导致整个抽样的效率不高，链的收敛性较慢。最近，á和George(2014)提出了一种EM算法的贝叶斯变量选择方法，称为EMVS。EMVS方法并不需要后验抽样，能快速分辨有用的高概率后验模型，且能适用于有许多潜在预测因子的高维数据情形。本文将基于EMVS方法研究Beta回归模型的变量选择问题，并将研究结果应用于沪深300股息率问题，出若干重要的影响因素。本文余下的部分如下展开：第1节回顾Beta回归模型并讨论参数的极大似然估计方法；第2节基于连续型spike-and-slab先验和EMVS方法给出估计方法，并给出EM算法下变量选择的具体步骤和变量选择的门限值选取方法；第3节将本文提出的变量选择方法应用于沪深300上市公司的股息率及其影响因素中进行实例分析。

1 Beta回归模型

本节简要回顾一下Beta回归模型及其最大似然估计。假设n组观测值样本相互独立，yi～Beta(μi,φ),则对数似然函数为：

其lt(μt,φ)=log Γ(φ)-log Γ(μtφ)-log Γ(1-μt)φ+(μtφ-1)log yt+{(1-μt)φ-1}log (1-yt),μt由(1)式定义。令参数(β，φ)的得分函数记为(Uβ(β,φ)T，Uφ(β,φ))T,这里

其中X是第t行为的n×k阶矩阵，T=diag{1/g′(μ1),…，1/g′(μn)},y*令〗,其中ψ(·),ψ′(·)是digamma和trigamma函数；令则观测费希尔信息阵可以表示为

其中

由于从得分方程Uβ(β,φ)=0和Uφ(β,φ)=0中无法直接得到β和φ的极大似然估计的确切表达式，因此需要使用数值计算方法最大化对数似然函数来获得，通常可以使用牛顿算法或者拟牛顿法进行迭代直至收敛。R语言中软件包“betareg”可以获得β和φ的极大似然估计。

2 基于EM算法的贝叶斯变量选择

为应用贝叶斯变量选择方法，我们引进一个二进制指示向量γ=(γ1,…,γp)′,γi∈{0,1},其中γi=1表示模型中包含第i个变量xi。选取β的spike-and-slab高斯混合先验

π(β|σ2,γ,v0,v1)=Np(0,Dσ2,γ)

其中Dσ2,γ=σ2diag(a1,…,ap),ai=(1-γi)v0+γiv1,0v0v1。假定σ2的先验服从逆伽马分布π(σ2)=IG(v/2,vλ/2)。对于散度参数φ,假定其先验服从伽马分布π(φ)=Ga(ν/2,νλ/2)。对于指示变量γ=(γ1,…,γp)′,γi∈{0,1},取

π(γ|θ)=θ|γ|(1-θ)p-|γ|

其中是超参数，可取beta先验即π(θ)∝θa-1(1-θ)b-1,a,b>0,从而相当于取γ为beta-二项先验。根据以上设置，我们得到后验分布

π(β,φ,θ,σ2,γ|y)=p(y|β,φ)×π(β|σ2,γ)×π(σ2)×π(γ|θ)×π(θ)

由于指示变量γ总共有2p个可能取值，相当于有2p个候选模型需要选择，因此直接应用基于随机搜索的贝叶斯变量选择方法(SSVS)计算量特别大。EMVS基于EM算法替代常用的MCM

C随机搜索方法，将指示变量γ视为潜在变量，对联合后验分布的对数似然取期望得到目标函数

Q(β,φ,θ,σ2|β(k),φ(k),θ(k),(σ2)(k))=Eγ|.[log π(β,φ,θ,σ2,γ|y)|β(k),φ(k),θ(k),(σ2)(k),y],

其中Eγ|.(·)表示条件期望Eγ|β(k),φ(k),θ(k),(σ2)(k),y(·),通过重复最大化目标函数来间接最大化π(β,φ,θ,σ2|y)。在第k次迭代，给定(β(k),φ(k),θ(k),(σ2)(k)),首先是E-步骤，计算目标函数右边的期望来获得Q。接着是M-步骤，在(β,φ,θ,σ2)下最大化Q来产生(β(k+1),φ(k+1),θ(k+1),(σ2)(k+1))的值。

目标函数Q可以进一步写成如下形式

Q(β,φ,θ,σ2|β(k),φ(k),θ(k),(σ2)(k))

=C+Q1(β,φ,σ2|β(k),φ(k),θ(k),(σ2)(k))+Q2(θ|β(k),φ(k),θ(k),(σ2)(k))其中

Q1(β,φ,σ2|β(k),θ(k),φ(k),(σ2)(k)

Γ(φ)-log Γ(μtφ)-log Γ(1-μt)φ+(μtφ-1)logyt+{(1-μt)φ-1}log(1-yt)]

Q2(θ|β(k),θ(k),φ(k),(σ2)(k)

下面给出E-步和M-步的快速计算形式。

E-步

E-步骤是分别计算Q1、Q2中的条件期望和Eγ|·γi。不难可得

其中

M-步

首先最大化Q1,使用牛顿算法，数值最大化对数似然函数求得β(k+1)、φ(k+1)的值，进而可以求得(σ2)(k+1)的值。结合第1节，可以得到得分函数,这里

其中D*观测费希尔信息阵的表达式为其中因此，

同时得到进一步更新，

对于Q2,其最大化是通过下面的表达式获得的，

正则化的回归分析

即

重复以上E步和M步，直至各参数收敛。

为选择最优的模型，定义子模型是给定下最可能的γ,即

由于而条件成分包含概率从而可得

⟺≥0.5。

由于≥0.5⟹ci≥di,另外

则有

ci≥di

⟹≥

⟹≥其中

所以可以得到

≥

上式即为第i个变量是否进入最终模型的门限值，在应用中很容易实施。

3 实例分析

这一节我们将使用前面提出的变量选择方法对中国上市公司的股息率及其影响因素进行分析。股息率指以年化基准表示的投资、基金或投资组合的预期派息总额，再加上投资者在该期间可能获得的任何额外的非经常性股息。根据公司的偏好和战略，股息率可以固定或调整。现金流动性强的公司通常会派发股息，而快速增长的公司则会将产生的现金重新投资于业务，并不向股东派发任何股息。股息率是衡量企业投资价值的重要指标。因为沪深300指数覆盖了沪深两个证券市场大部分的流通市值，能够反映市场主流投资的收益情况，所以这里选取沪深300指数的300只成分股作为研究对象。数据来源于wind金融数据库。

688IT编程网

Beta回归模型基于EM算法的变量选择方法

发表评论

推荐文章

java正则表达式选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符回溯引用和前后查匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式选择题

工龄小数点提取

非零金额正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

688IT编程网

Beta回归模型基于EM算法的变量选择方法

发表评论

推荐文章

java正则表达式 选择题

一种基于正则表达式的DBC文件解析及报文分析方法[发明专利]

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

热门文章

利用正则表达式实现文本数据提取与处理

正则表达式零宽断言详解

文本匹配规则

excel中使用正则

1-31正则表达式

anki之高级筛选

BUAA_OO_2021_第一单元总结

insert语句递增写法

sublime text 3在行前插入递增数字序号的方法

字符串只允许数字和英文的正则

powerbuilder 正则表达式

Shell脚本编写的高级技巧利用正则表达式进行字符串匹配

JAVA正则表达式的三种模式:贪婪,勉强和占有的讨论

go regexp匹配规则

oracle regexp_substr 实现原理

基本的元字符 回溯引用和前后查 匹配模式

elasticsearch query dsl正则

oracle sql正则表达式

GA-设置目标

仅匹配全角片假名的正则表达式

最新文章

java正则表达式 选择题

工龄小数点提取

非零金额 正则表达式

提取文本中数字的函数

vue数字相加小数点变长-概述说明以及解释

vue validate 正则验证小数长度

标签列表

java正则表达式选择题

非零金额正则表达式

基本的元字符回溯引用和前后查匹配模式

java正则表达式选择题

非零金额正则表达式