第33卷第1期2021年3月
宁波工程学院学报
JOURNAL OF NINGBO UNIVERSITY OF TECHNOLOGY
Vol.33No.l
Mar.2021
DOI:10.3969/j.issn.l(K)8-7109.2021.01.(K)7
基于正则化Logistic回归模型的幸福感指数影响因素分析
项超,孙珂祎,吕鹏飞,王延新
(宁波工程学院理学院,浙江宁波315211)
摘要:结合LASSO、SCAD、MCP罚估计和Logistic回归模型,给出了正则化Logistic回归模型,提出了坐标下降算法,
并将该模型应用于居民幸福感指数的影响因素分析。实证分析结果表明,相对于Logistic全模型,基于罚函数的正则化Logistic回归选出了更加稀疏的模型,且准确率高,尤其MCP-Logistic模型准确率比Logistic全模型高出5.77%。该模型
的选择结果对居民幸福感影响因素的研究具有一定的参考价值。
关键词:LASSO;SCAD;MCP;Logistic回归;变量选择
中图分类号:0213文献标识码:A文章编号:1008-7109(2021)01-0039-08 Influencing Factors of Happiness Index Based on Regularized Logistic
Regression Model
XIANG Chao,SUN Keyi,LYU Pengfei,WANG Yanxin*
(School of Science,Ningbo University of Technology,Ningbo315211,China)
Abstracts:Combining with LASSO,SCAD,MCP penalty estimation and Logistic regression model,a regularized Logistic regression model is given and a coordinate descent algorithm proposed,and the model is applied to the analysis of the influencing factors of residents*happiness index.The results of t
he empirical analysis show that,compared with the full Logistic model,the regularized Logistic regression based on the penalty function selects a sparser model with high accuracy.In particular,the accuracy of the MCP-Logistic model is 5.77%higher than the full Logistic model.The selection result of the model has certain reference value for the research on the factors influencing residents1 happiness.
Keywords:LASSO,SCAD,MCP,Logistic regression,variable selection
0引言
随着大数据时代的到来,在自然科学、人类学和工程学等领域的数据集越来越丰富,数据结构日趋
复杂。这些数据的主要特点是数据的维数很高,往往大于样本量;并且随着维数的增加,噪声积累,存在虚假相关。范剑青指出高维回归模型中系数存在稀疏性,即绝大部分解释变量的系数为0,因此需要通
过变量选择的方法建立稀疏模型,以提高模型的解释能力和参数估计的精确度。
收稿日期:2020-09-02修回日期:2020-10-14
基金项目:全国统计科学研究项目(2019LY06);浙江省统计研究课题(20TJZZ18);浙江省新苗人才计划
项目(2020R475013)通信作者:王延新(1979—),男,山东滕州人,博士,副教授,主要从事高维统计推断的研究,E-mail:***************
40宁波工程学院学报2021年第1期
变量选择是从众多变量中选择重要的相关变量来达到稳健建模的方法,传统的变量选择方法如最优子集选择、逐步回归等方法在维数较高的情况下存在计算量大,变量选择不稳定等缺点[〜。近些年,统计学家们提出基于惩罚函数的正则化变量选择方法。Tibshirani⑷提出的LASSO是一种最常用的稀疏化手段,主要在于它的可解释性和预测的有效性,并且本身是凸优化问题可以快速求得最优解。但LASSO 对较大系数的估计是有偏差的,并且不一定满足oracle性质固,故Zou提出自适应LASSO,自适应LASSO 是无偏估计问。高维数据经常遇到变量之间的共线性问题,使得LASSO表现不够理想,2009年,Zou和Hastie提出了弹性网(Elastic net)o此外各种非凸罚函数如SCAD】51‘MCP】81、SIC和EXP^等相继被提出。
幸福是人类千百年来生生不息的追求,幸福生活与每个人的生存与发展息息相关。每个人对幸福感都有自己的衡量标准,过上美好幸福的生活是广大人民众的希望。何为“幸福”,幸福是人们对于生活各个方面的满足感,从马斯洛需求层次理论来说,人的需求被分为生理需求、安全需求、社交需求、尊重需求和自我实现需求,只有这五大需求得以满足,才能说的上真正意义上的幸福。目前,我国居民幸福感
处于什么状态,哪些因素对人们的幸福感有影响,不同人之间幸福感是否有差异,都是围绕幸福这一问题展开。如果能发现影响幸福感的共性,生活中将多一些乐趣;如果能到影响幸福感的影响因素,便能优化资源配置来提升国民的幸福感。
本文基于CGSS项目的公开数据的问卷调查结果,结合LASSO.SCAD和MCP罚构建正则化Logistic 回归模型,研究幸福感的主要影响因素。
1模型建立
1.1Logistic回归模型
Logistic回归模型是一种广义的线性回归模型,用来分类0-1问题,也就是预测结果是0还是1的分类问题。设刃和Xi=(xn,"-,叼,)分别是响应变量和解释变量,i=l,2,3,•",n,yi e{1,0},同时假设和叼相互独立,Logistic回归可表示为:
(1)其中
1=1
则Logistic回归的对数似然函数为:
")=£{j77(X)-log{l+exp["(兀)]}}
Z=1⑵1.2正则化Logistic模型
对于Logistic回归模型,响应变量yi e{1,0},y的期望依赖于函数耳(伦)丫0伦,假设
正则化的回归分析1=1
P(z-=1丨坨],…,X ip)=^=
基于惩罚函数的Logistic模型的一般框架为
P=argmin-一£{/log①+(1-北)log(1-”J}+£P&(風|)
旳i=l7=1⑶⑷
项超等:基于正则化Logistic 回归模型的幸福感指数影响因素分析41
其中A (|g | )为正则化参数,入为调和参数,入引0,+8)。比较典型常用的罚函数有LASSO,SCAD 和MCP 等。
Tibshirani^]提出的Lasso 是一种最常用的稀疏化手段,主要在于它的可解释性和预测的有效性,并 且本身是凸优化问题可以快速求得最优解。LASSO 罚函数定义为
血(训)"£|创 ⑸
Fan 和Li 固指出一个好的罚函数应该同时具备三种性质,即连续性、无偏性和稀疏性。但Lasso 对较 大系数的估计是有偏的,并且不一定满足Oracle 性质,故Fan 和Li 提出了 SCAD 罚函数,SCAD 罚函数 如下:
2|0|,
2咧0| -评+巧 2(a_l )|0|",
2< 御<ak,
制 > aZ.22(a 2-l )
2(a_l )⑹
其中,对于给定的A>0,a>2,SCAD 罚函数是分段函数形式,分别对应常数、线性函数和二次函数。 SCA
D 在区间(-8,0)u (0,+8)上是连续可微的罚函数,但在原点处是奇异的,并且在区间[_aA,aA ]处 的导数为0。
MCP 估计与SCAD 估计类似,MCP 估计也具有连续性、无偏性和稀疏性等性质。MCP 罚函数如下冬
D (|0|)n
(7)制> ak
入M0决定惩罚的大小,a 是影响惩罚范围的调整参数。MCP 罚函数满足近似连续性,2坐标下降算法
本本文考虑利用坐标下降算法问求解SCAD,MCP 及LASSO 估计问题。坐标下降法是一种非梯度 优化算法,其基本思想为:在每步迭代中沿一个坐标方向进行线性搜索,与此同时固定其他坐标方向, 再循环使用不同坐标方法从而达到目标函数的局部极小值。
考虑目标函数
2⑷=-十孰険+ (1 -必)bg (1 -羽)} +伞個|)
( $)首先将损失函数在当前迭代值进行泰勒级数展开,从而得到损失函数的二次逼近
■吩D 吩-网+字個|) ⑼
其中?的定义是
y = Xp {m '}+W-\y-7i )
W 为关于加权函数的对角矩阵,其对角线上元素为
© =眄(1-眄
)
42宁波工程学院学报2021年第1期其中77由05)估计。
定义尺度因子+叫,并重新定义尸二炉"卜-”),且
〜冷训卜心角)弓严+/严(I。)
对于LASSO的坐标下降步为
A
0疔glassoC昇卜S(Z/,2)(11)
其中S(z/,小(|讣;I]瀏(zj为软阀算子。
同理,对于SCAD罚的坐标下降步为
为=gscad(zM,a)<-
聲2团“厲+i)
v j
(12)£卜唧1
其中a>l+l/v jo对于MCP罚为
0=gmcp(NMG)J<
(13)
其中a>l/v JO
基于上述,完整的罚Logistic回归的坐标下降算法如下(以SCAD罚为例):
Step 1.按递增方式输入一系列的入值A={A lf…,入厶}和a值皿,…,如,并定义九+】,使得AA+i>«J=°o
Step 2.对毎人仔"—重复如下步骤:
(i)初始化0=0(血+1,务)
(ii)对每个氏{K,K-重复如下步骤
(a)令%=x,T p,i=1,2,...,0,计算兀产亓責©=昭(1-厲)
(b)循环坐标下降,对j=L,2,…,p计算r=W A(y-^
勺£'严+卩肿)'0=gscad C昇,O)
(c)令陶
(d)重复(a)-(c),直到0收敛到真实值0*
(ii)递减k值
Step 3.递减I
Step4.对于所有的(A,a)e AxF,返回解鸟(入,a)。
在上述算法中,对MCP估计,只需要将其中的0如(可,入,a)换成0哪(勺,入,a)即可,而对于LASSO
项超等:基于正则化Logistic回归模型的幸福感指数影响因素分析43
估计,不存在参数a,因此在上述算法中对于LASSO估计,不存在内循环的问题,过程更简洁。此外需要指出的是,在上述算法中设计正则化参数入和a的选择,本文利用交叉验证的方法选择正则化参数。
3实证分析
3.1数据来源及变量解释
本文数据来自中国人民大学中国调查与数据中心主持之“中国综合社会调查(CGSS)”(2015)项目的公开数据的问卷调查结果,中国综合社会调查为多阶分层抽样的截面面访调查。数据具体包括个体的幸福感、
性别、年龄、健康状况、受教育程度、就业状态、婚姻状况、户口、家庭社会经济地位等四。由于有些问卷数据无意义,所以处理后的有效数据是6645行数据。数据的获取平台是阿里云天池平台。
选取的预测变量总共有以上29项,分为五项指标。其中性别、所在省市、样本类型、出生日期、民族属于个人基本情况,宗教信仰、教育程度、用在社交上的空闲时间、用在放松休息上的空闲时间、用在学习上的休息时间属于文化生活,个人年收入、住房面积、家庭年总收入、家庭人口、家庭经济状况档次、房产数量、汽车数量属于经济生活,身高、体重、健康状况、心情沮丧的频繁程度属于健康状况,对当今社会是否公平的评价、个人社会地位评价、工作经历及状况、婚姻状况、与同龄人相比的社会经济地位、与三年前经济社会地位相比发生的变化、对一些重要事情所持的观点和看法与社会大众一致次数属于人际关系指标。其中心情沮丧的频繁程度从1到5取值,取值越大感到沮丧次数越少。
为讨论问题的方便,响应变量为幸福感指数(happiness)将此划为两个类别,沮丧程度为4和5时划分为幸福,1_3时为不幸福。“不幸福”和“幸福”,分别赋予对应的数值0、1。数据概况以及部分数据指标如表1和表2所75。
表1数据集概况
数据集样本个数变量数量数值变量分类变量幸福不幸福问卷数据66453062452541391
表2数据集部分指标赋值
变量名取值取值说明
survey_type1、21=城市;2=农村;
depression1-51=总是;2=经常;3=有时;4=很少;5=从不;
relax1-51=从不;2=很少;3=有时;4=经常;5=非常频繁;
equity1-51=非常不幸福;2=比较不幸福;3=说不上幸福不幸福;4=比较幸福;5=非常幸福;
class1-101=1(最底层);10=10(最顶层);
statusjpeer1-31=较高;2=差不多;3=较低;
status_3_befbre1-31=±升了;2=差不多;3=下降了;
view1-51=一致的时候非常少;2=一致的时候比较少;3=一般;4=一致的时候比较多;5=一致的时
候非常多;
3.2变量选择和参数估计
为了建立模型和比较模型的预测效果,本文将数据集切分为训练集和测试集两部分,训练集数据和测试集数据各占一半。从原始数据集随机抽取50%的数据作为训练集,剩下的50%作为测试集,利用训练集数据建立模型,将测试集的数据代入建立好的模型中进行预测,用于对模型预测准确性的外推检验。
利用全变量Logistic模型、LASSO-Logistic模型、SCAD-Logistic模型、MCP-Logistic模型对上述数据进行实证分析,用训练集数据建立模型,变量选择结果见表3。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论