一种基于正则化判别分析的迁移学习算法
王莉莉;冯其帅;陈德运;杨海陆
【摘 要】针对大多数基于实例的迁移学习方法容易产生分布参数估计困难和泛化效果差的问题,提出一种正则化判别迁移学习算法.依据判别分析和半监督学习理论,采用核方法和正则化方法,研究了基于正则化的高斯核半监督判别分析方法,以构造修正嵌入空间的方式进行样本迁移.一方面,在映射空间中筛选样本可克服估计分布参数的困难;另一方面,引入伪标记数据和定义距离函数可避免过拟合问题.文本和非文本数据集上的实验结果验证了所提算法能够有效提高迁移的正确率及学习模型的泛化能力.
【期刊名称】《哈尔滨理工大学学报》
【年(卷),期】2019(024)002
【总页数】7页(P89-95)
【关键词】迁移学习;判别分析;正则化;半监督学习
【作 者】王莉莉;冯其帅;陈德运;杨海陆
【作者单位】哈尔滨理工大学 计算机科学与技术学院,黑龙江 哈尔滨150080;哈尔滨理工大学 计算机科学与技术学院,黑龙江 哈尔滨150080;哈尔滨理工大学 计算机科学与技术学院,黑龙江 哈尔滨150080;哈尔滨理工大学 计算机科学与技术学院,黑龙江 哈尔滨150080
【正文语种】中 文
【中图分类】TP181
0 引 言
近年来,受到人类学习过程的启发,“迁移”的概念被引入到机器学习当中[1]。迁移学习是一种适用于数据具有不同分布的新机器学习方法,放宽了传统机器学习过程中对训练数据和测试数据作同分布假设的要求,其思想是把已学习到的知识应用到相关领域来帮助目标任务的完成。
在基于实例的迁移学习方法中,尽管源领域和目标领域的数据分布不同,但是源领域中仍会
存在一部分数据可以和目标领域数据一起使用来训练学习模型。大多数实例迁移的方法是对数据间的样本选择偏差和协方差偏差进行修正,使得源领域中的部分数据可用。文[2-3]等对源领域和目标领域中数据的分布进行估计,以修正源领域相对于目标领域的样本选择偏差。文[4]等通过分布参数的学习,对源领域中的数据进行评估加权,出与目标领域中的数据分布最相近或对目标任务最有帮助的样本。然而,这些方法都需要对分布参数进行估算。在数据量较少的情况下,参数估计往往会出现偏差。
针对上述实例迁移的不足,本文提出一种正则化判别迁移学习算法。首先,在线性判别分析的基础上引入高斯核,使其适用于现实非线性问题,并通过正则化的方式得到一种半监督的高斯核判别分析方法。其次,基于该正则化判别分析并通过定义距离度量来构造修正嵌入空间,在不直接估算分布参数的情况下对源领域中的可重用数据进行迁移。在迁移时通过添加伪标记的方式引入目标领域中的未标记数据,进一步提高迁移学习下分类器的分类精度和泛化能力。
1 正则化的半监督判别分析
1.1 判别分析理论
判别分析[5]的目的是学习一个从原始特征空间到新特征空间的映射,该映射可以是线性的,也可以是非线性的。线性判别分析的基本思想是不考虑类条件概率密度的分布,其原理是使用投影矩阵将原始数据投影到维度更低的空间中,使得投影后的数据会按类别区分,具有相同类别的数据在投影后的空间中更紧密而不同类别的则尽量分开[6]。通常定义一个判据来度量不同子空间中保留的判别信息,通过求得该判据的最优目标函数从而得到最优的子空间。该过程可以形式化为:
(1)
其中,判据J(W)是关于投影矩阵W的函数,该函数通常用映射空间中的类间与类内的距离之比来表示,使得在投影空间中同类样本分布密集而不同类样本相隔较远。通常使用欧式距离来计算类间距离和类内距离,类间距离即每一类的中心到所有样本中心的距离,类内距离即每一类的样本到该类样本中心的距离。从而,判据J(W)可以表示为
(2)
其中:trace(·)代表矩阵迹运算;Sb为类间散度矩阵,Sw为类内散度矩阵。若给定一组D维且共C类的训练样本集{x1,x2,…,xn},则Sb和Sw可分别定义为:
(3)
(4)
其中:tk代表第k个类的数目;代表了第k类的样本中心;代表了所有样本的中心;∏k表示属于第k个类的样本集合。
对式(2)关于投影变换矩阵W求偏导,令偏导数为零整理得到:Sw-1SbW=λW,其中λ为Lagrange乘子。对最优判别投影W的求解,就等价于求解整理后的特征方程的特征向量。
1.2 高斯核判别分析
现实中的数据大部分并不是线性的,为了将非线性问题转化为线性问题,非线性判别分析方法就受到了广大学者的深入研究[7]。非线性判别的思想是:先使用一个非线性映射φ将原始空间中的数据变换到高维特征空间F中,然后在F上进行核函数矩阵的线性变换,最终通过逆变换变为原始空间的非线性模型。由于到F的维数可能很高,导致直接计算出最优的非线性判别向量具有一定难度。所以,通常利用核函数[8]的“核技巧”对投影后的数据进行核变换,也就是在高维空间中选择一个核函数来表示向量的内积:K(x1,x2)=φ(x1)·φ(x2),这样就避免
了对投影后的数据进行非线性映射。常用的核函数有线性类型核函数、高斯径向基函数(radial basis function,RBF)类型核函数、多层感知器类型的核函数和P阶多项式类型核函数等,本文选择使用RBF:K(x1,x2)=exp(-‖x1-x2‖2/σ2)。高斯核判别分析的目标函数可表示为
(5)
其中W∈F,Sbφ和Swφ表示样本在F中的类间散度矩阵和类内散度矩阵,可分别定义为
(6)
(7)
其中:表示F中第k类样本的中心;表示F中所有样本的样本中心。与线性判别分析类似,最终对于W的求解就转变成(Swφ)-1Sbφ特征值特征向量的求解问题。
1.3 基于高斯核的正则化判别分析
为了利用现实中越来越多的无标记数据,判别分析方法也借鉴半监督学习的思想,形成了半监督判别分析方法[9]。半监督判别分析方法将传统的判别分析技术应用在半监督环境下,同
时利用有标记的数据和无标记的数据进行学习,目的是到一种对分类最有效的投影空间,即嵌入空间。根据利用无标记数据学习方法的不同,半监督判别分析方法大致可归纳为两类。第一类是基于正则化的方法,同时利用无标记数据和有标记数据来保持样本的局部或全局几何结构分布,使得投影变换方向保持了样本的流形分布。第二类是有标记数据样本扩充的方法,根据无标记数据和有标记数据样本的分布特性,将监督信号从有标记的数据传递到无标记的数据上。
半监督学习常用的假设是“流形假设”[10],即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。而图正则化[11]的一般假设为:若数据点在原空间是邻近点,则对应到新的空间中也是邻近点,图正则化能够很好地保持数据的内在几何结构。
正则化可理解为一种“罚函数法”,即对不希望得到的结果施以惩罚,从而使得优化过程趋向于希望目标。正则项用于保持参数值较小,有助于削减假设空间,从而能够降低最小化训练误差的过拟合风险。本文采用正则化思想,在投影后的空间中保持样本的流形结构。在高斯核判别分析的基础上引入样本数据局部与非局部散度之差作为正则项,得到一种新的基于正则化的半监督判别分析方法。该方法能够使数据在投影后的空间中具有最大的类间距离和非
局部散度,以及最小的类内距离和局部散度,得到更佳的分类效果。该基于正则化的半监督判别分析方法的目标函数可表示为
(8)
其中:α为正则项调节系数;SL-SN是正则项,SL、SN分别为局部及非局部散度矩阵。它们分别定义为
(9)
(10)
其中Hij是一个N×N的邻接矩阵,定义如下:
在此,Nk(xj)表示xj的k近邻,Nk(xi)表示xi的k近邻。
对式(8)关于W求偏导,令偏导为零并整理可得到:λSbφW=(Swφ+α(SL-SN))W,求其特征向量即得到该基于正则化的半监督判别分析方法目标函数的最优投影。
2 正则化判别迁移学习算法
正则化判别分析2.1 算法思想
首先,选取一个分类算法分别在源领域数据集上、目标领域的有标记数据集上和由这两个数据集组成的新数据集上训练分类器。用这3个分类器分别标注目标领域中的未标记数据,并对标注结果进行不加权投票,使用伪标记数据辅助迁移。
其次,使用上节提出的基于正则化的高斯核半监督判别分析方法得到投影矩阵W*,并用其将源领域数据、目标领域的有标记数据和目标领域的伪标记数据投射到嵌入空间τ1中,对源领域数据进行筛选。
在选择的过程中,本文定义一个距离度量,用于计算嵌入空间中所有源领域数据到目标领域数据的距离,将该空间中与目标领域数据距离最近的、最有效的可重用样本进行迁移。此外,定义指示矩阵I,Ii为1表示源领域数据中第i个样本被选择,否则为0,被选择的样本集合表示为SI。因此,嵌入空间中的类间散度矩阵SbIφ可定义为:
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论