基于Lasso方法与Logistic回归的上市公司财务预警分析
秦璐;靳雨佳;于卓熙
【摘 要】一般情况下,上市公司财务数据指标越多,预警效果越好,但由于多种因素影响,财务指标过多会导致变量间具有多重共线性。本文提出一种基于Lasso方法的Logistic回归上市公司财务预警模型。首先应用Lasso法对高维数据进行变量选择,达到降低数据维度和消除变量间共线性的目的,再用Logistic回归法实现对上市公司财务状况的预警。仿真实验结果表明,本文提出的方法能够有效地消除数据的冗余性,提高预警的精确性,为企业经营者提供有效的参考意见。
【期刊名称】《应用数学进展》
【年(卷),期】2017(006)004
【总页数】12页(P572-582)
【关键词】高维数据;Lasso方法;Logistic回归;财务预警
【作 者】秦璐;靳雨佳;于卓熙
【作者单位】[1]吉林财经大学管理科学与信息工程学院,吉林 长春;;[1]吉林财经大学管理科学与信息工程学院,吉林 长春;;[1]吉林财经大学管理科学与信息工程学院,吉林 长春
【正文语种】中 文
【中图分类】F2
近几年,我国A股市场中出现的一些上市公司,由于各种财务问题被证券交易所执行特别处理(Special Treatment, ST)。被特别处理的股票,除了涨跌幅度受限制以外,证监会要求在其股票名称前加上提醒性注释“ST”。此外,这些上市公司的中期报告必须审计。如果一个ST企业持续亏损,那么它将面临退市的风险。因此,利用上市公司财务数据,建立有效、稳定的财务危机预警模型具有重要的现实意义,为企业投资者制定合理的财务制度,锁定财务风险提供有价值的参考。
本文根据上市公司财务数据的特征,将Lasso方法引入到财务危机预警模型中,与Logistic回归进行有机结合,提出一种基于Lasso方法的Logistic回归上市公司财务预警模型。仿真实验结果证明了本文所提出的方法能够提高预警的准确性,有效地反映上市公司财务危机状况,为上市公司财务预警提出新的方法。
Tibshirani于1996年提出最小绝对收缩选择法(Least absolute shrinkage and selection operator, Lasso),它是一种基于系数压缩方法的新的变量选择方法。Lasso方法的基本思想是在约束各个回归系数的绝对值之和小于某个特定值的情况下,求解使得回归方程的残差平方和达到最小的回归系数的估计值。Lasso方法能够有效地降低数据的维度,非常适用于高维数据的变量选择。Lasso方法的数学表达式如下所示:
其中,xij表示第i个样本对应的输入变量,yi表示第i个样本对应的输出变量,表示模型的惩罚函数,λ为惩罚参数,λ取值越大,剔除掉的变量越少;反之,λ取值越小,剔除掉的变量越多。
通过控制调和参数t,使回归系数总体变小,即自动压缩回归系数。当t取一定值时,一些相关程度较低的系数减小为0,得到一些稀疏解,从而达到变量选择的目的。
j定义为回归模型的最小二乘估计,表示正则化参数,则在区间[0,1]上,用s的取值对预测误差
进行估计[1]。预测误差如下所示:
当s取适当值时,使误差达到最小,此时,即可确定回归系数。
求解Lasso模型的方法也层出不穷,最初,Tibshirani提出用二次规划进行求解,一些学者又提出了新的算法,例如shooting算法,同伦算法等。目前应用较为广泛的是最小角回归算法(Least Angel Regression,即Lars)。
Lars算法的过程是一个残差拟合的过程,即对变量进行最小二乘回归,它的主要思想是:最初令所有变量系数为0,从所有自变量中寻出与因变量相关性最强的一个,记为x j1,引入回归方程;然后在x j1的方向上搜索另一个自变量xj2,使xj2与当前残差的相关系数和x j1与当前残差的相关系数相同,引入回归方程;接着,沿着x j1和xj2的等角线方向继续搜索,到变量xj3,使xj3与当前残差的相关系数相同,引入回归方程;再沿着平分变量x j1、xj2和xj3的夹角方向搜索到满足相关性最强的第四个变量,以此类推,直到所有变量进入方程即可。具体过程详见参考文献[2]。
本文采用Cp准则作为变量选择的标准,它是基于残差平方和的准则,目前得到广泛应用[3]。假设有m个自变量{x1,x2,…,xm },从中筛选出p个变量其中为{1,2,…,m}的一个子集,则Cp准则公式如下所示:
其中,RSSp是变量与因变量的残差平方和,n为样本容量,σˆ2是Y与x1,x2,…,xm方差的无偏估计量,其公式如下:
Logistic回归模型是一种非线性概率模型,它具有对自变量类型无限制,不要求数据满足方差齐性和正态性,系数有较强的可解释性等优势,因此,Logistic回归模型广泛应用于医学、经济学、社会学以及地理研究等领域。
Logistic回归分析是将求解自变量与因变量之间关系问题转化成求解某一事件发生的概率问题。结合本文研究的内容,上市ST公司和非ST公司作为因变量是二元离散型变量,这里将被执行特别处理的ST公司视为发生了财务危机,没有被执行特别处理的非ST公司视为没有发生财务危机。定义如下:
其中,为假设的连续变量,代表事件发生的概率。
由于Lasso不仅适用于线性模型,也适用于广义线性模型和半参数模型等其他一些统计模型,因此,本文采用基于Lasso方法的Logistic回归模型,假设与自变量xki之间存在某种线性关系,具体形式如下:
其中,yi表示公司是否发生财务危机;xki表示第i家公司的第k个财务指标。
通常,误差项iε服从Logistic分布,属于对称分布,因此,公式(9)等价于下面的公式:
公式(10)称为Logistic函数,它呈现S型曲线分布,且值域为0到1之间。将公式(10)转换成如下形式,得到Logistic回归模型:
其中,pi表示第i家公司发生财务危机的概率,它是由变量xki组成的非线性函数,并且可以转换成线性函数。
定义第i家公司不发生财务危机的概率为
由上面可以得到,第i家公司发生财务危机与不发生财务危机的概率之比为
将公式(13)称为事件的发生比,其取值范围为0到,因此,通过Logit变换,可以将上式非线性函数转换成线性函数,如下所示:
Logistic回归模型将上市公司发生财务危机概率的预测问题转化成预测某个公司发生财务危机的发生比问题,该模型不仅能够预测上市公司是否发生财务危机,还能够直观地反映出公司
发生财务危机的概率,客观地反映公司经营现状[4]。
本文选取了2014年~2016年间我国A股市场中因财务状况异常而被特别处理的上市公司(即ST公司)作为主要研究对象,剔除存在缺失值的数据后,共选取22家ST公司。因为上市公司出现财务危机需要经历一个过程,上市公司被特别处理是由于之前两年连续亏损,因此本文选取第T-3年的指标数据建立预警模型,预测公司在第T年是否因财务状况异常而被特别处理。此外,按照ST公司与非ST公司1: 3的配对比例随机选取66家非ST公司作为匹配样本。选取的这些配对非ST公司要与ST公司处于相同行业,资产规模相近,并且在同一时间段内。最终确定了由23家ST公司和与之匹配的66家非ST公司共同组成的研究样本集[5],如表1所示。
企业的财务指标反映了公司的财务状况和经营成果,不同时期的指标数据反映出企业不同时期的经营状况[6]。本文从公司的盈利能力、偿债能力、成长能力、现金流量、运营能力、资本结构等方面考虑,初步选取了19个反映公司财务状况的指标变量进行研究[7],如表2所示。本研究数据主要来源于RESSET数据库,使用 SPSS和R软件进行数据处理以及构建模型。
使用R软件中的Lars程序包对数据处理,根据变量的移动顺序来判断指标的重要性,运行Lasso方法得到变量选择次序表,如表3所示[8]。
从上表可以看出,变量选择的顺序依次是
在变量选择过程中,根据Cp准则来判断最优选择效果,即Cp值越小,变量选择效果越好,计算过程中的各项参数值如表4所示。
从表4中可以看出,在第5步时,当Cp达到最小值为1.1919,此时变量选择效果达到最优,因此最终选择的变量是
图1为回归系数解路径图,可以直观地判断财务指标的选择过程。
正则化的回归分析

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。