基于TSNE和多尺度稀疏自编码的高光谱图像分类
董安国; 张倩; 刘洪超; 梁苗苗
【期刊名称】《《计算机工程与应用》》
【年(卷),期】2019(055)021
【总页数】6页(P176-181)
【关键词】高光谱图像; 深度学习; 多尺度空间特征; 流形学习
【作 者】董安国; 张倩; 刘洪超; 梁苗苗
【作者单位】长安大学 理学院 西安 710064; 江西理工大学 信息工程学院 江西 赣州 341000
【正文语种】中 文
【中图分类】TP75
1 引言
随着高光谱遥感技术的快速发展,引起了农业、医学、环境科学等其他领域的高度重视,而高光谱图像(Hyperspectral Image,HSI)分类是高光谱遥感技术中热门研究的问题。高光谱数据存在维数“灾难”、同谱异类及同类异谱的现象[1],因此,对数据进行降维处理,提取数据的隐含特征,剔除数据的冗余信息对于高光谱图像分类有很大的帮助[2]。
近年来,深度学习在特征提取方面展现了巨大优势。Lin等人[3]采用自编码(Auto-encoder,AE)加逻辑回归(Logistic Regression,LR)的网络结构进行HSI分类,但其只考虑了光谱波段的相关性。Chen等人使用栈式自编码[4]和深度置信网络[5]进行深度空谱特征学习,但其只用了主成分分析(Principal Component Analysis,PCA)降维,提取空间信息时模型中训练了邻域的所有像元,增加了计算复杂度。王立伟等人[6]采用深度学习与迁移学习相结合的方法处理HSI分类问题,并取得了良好的分类效果。
多尺度特征[7](Multiscale Feature,MF)和流形学习(Manifold Learning,ML)近年来在HSI分类中也取得了较好的分类效果。姚琼等人[8]利用3DGobar多视图,提出3DGobar多视图主动学习的HSI的分类算法。Fang等人[9]利用多尺度空间邻域内自适应一致性约束,提出多尺度自适应稀疏表示策略(MASR)。Cheng等人[10]将流形学习引入到HSI分
类中,利用稀疏分解构造图模型进行类标传播。Wang等人[11]将流行嵌入和判别分布运用到HSI分类中。但目前还没人将流行学习及多尺度特征引入到深度学习的稀疏自编码(Sparse Autoencoder,SAE)模型中,稀疏自编码网络结构凭借强大的特征提取能力在高光谱图像中发挥了巨大优势,流形学习从高维数据分布中恢复低维流行结构,保持了数据的结构特点,多尺度空间特征算法考虑了周围像元的多尺度空间信息,降低了噪声的影响,提高HSI的分类精确度。
根据以上文献的研究,提出了一种基于TSNE和多尺度稀疏自编码的高光谱图像分类算法。首先,将T-分布邻域嵌入(T-distributed Stochastic Neighborhood Embedding,TSNE)作为一种强大的流形学习算法引入到高光谱图像中,使得高维数据分布结构在二维空间上得以保持,其次,基于高光谱数据具有空谱信息的特性,对HSI的每一个像元都进行多尺度空间特征提取,然后利用具有空谱联合信息的像元训练稀疏自编码网络,最后用softmax分类器对其分类,获得数据标签。该算法能较好地利用HSI的空谱信息,得到更好的分类效果。
2 稀疏自编码和softmax分类器模型
2.1 稀疏自编码网络
稀疏自编码网络[12](Sparse Auto-encoder,SAE)是深度学习中一个无监督的典型模型,它尝试去逼近一个恒等函数,从而使得输出数据接近输入数据,获取输入数据的深层特征。自编码网络结构如图1所示。
图1 自编码网络结构
稀疏自编码器在自编码网络结构上增加了对隐含层神经元的稀疏性约束[13],当隐含层神经元输出接近于1时认为它被激活,输出接近于0时认为它被抑制,那么当隐含层神经元数量较多时,仍然可以实现特征提取,防止过拟合的情况出现,提高特征的表示能力,运算精度较高、速度较快,实时性好。
设参数集α={W r,b r|W r∈R n×m,b r∈R n},β={W t,b t|W t∈R n×m,b t∈R m},则稀疏自编码器的目标函数为:
上式中的x(i)是第i组样本稀疏自编码网络输入层的输出值,z(i)是第i组样本稀疏自编码输出层的输出值,S是样本个数,ρ是稀疏性参数。
2.2 Softmax分类器
Softmax分类器[14]是LR的推广,用于多分类问题。像元x i属于类别k的概率用下式表达:
其中,K表示类别个数,θ是softmax分类器的参数。
采用SAE-SOFTMAX分类模型中,分为两个阶段:预训练阶段和微调阶段。在预训练阶段,通过式(1)即可求得最优的参数集α,β。在微调阶段,丢弃重建层,将最后一个稀疏自编码器的隐含层作为softmax分类器的输入,通过反向传播算法(Back Propagation,BP)训练参数θ,最终获得像元的分类结果。
稀疏自编码和softmax分类器的空谱联合分类算法模型图[15]如图2(SS-SAE)。
图2 SS-SAE算法模型图
3 TSNE和多尺度稀疏自编码的高光谱图像分类算法
3.1 T-分布随机邻域嵌入
高光谱图像具有维数高、计算复杂度大的特点,所以对于高光谱图像降维是一种有效地减少计算复杂度及运算时间的手段。T分布随机邻域嵌入[16](T-distributed Stochastic Neighborhood Embedding,TSNE)是一种典型的流形学习方法,近年来深受各个领域学者及专家的关注。TSNE的基本思想是将高维空间的点对映射到低维空间的同时,保持相互之间分布的概率不变,在高维空间下使用高斯分布将距离转化为概率分布,在低维空间下使用T分布将距离转化为概率分布,采用联合概率表示点对应的相似度,通过优化两个分布之间的距离KL散度,得到在低维空间的样本分布。
设高维数据点为 X=(x1,x2,…,x n),低维映射点Y=(y1,y2,…,yn),KL散度为:式中 pij为高维空间样本分布的联合概率函数,qij为低维空间中样本分布的联合概率,则高维数据点xi,x j的联合概率函数如下:
式(4)中的σ是中心在xi的高斯方差,通过预先设置的复杂度因子对其执行二分搜索获得最佳的σ。在低维空间中,数据点yi,y j的联合概率函数为:
式中,Y(t)是低维空间的样本数据,t是迭代次数,η表示学习率,α(t)为动量因子。采用TSNE获得高光谱图像低维样本表示算法如下:
输入:高光谱图像数据X≡(x1,x2,…,x n)∈R N×d
(N表示像元个数,d为光谱向量),复杂度因子Perp,迭代次数t,学习率η,动量因子α(t)。
输出:高光谱图像在二维空间的数据表示。
(1)根据式(5)、(6)计算给定复杂度因子下的 p j|i和pij。
(2)用正态分布N(0,10-4 I)随机初始化Y,获得初始解Y(0)。
pines(3)迭代,从1到t,作如下操作:
①根据式(7)计算qij;
②根据式(8)计算梯度;
③根据式(9)计算Y()t;
结束迭代。
(4)得到高光谱图像的二维表示Y=(y1,y2,…,yn )。
通过对比TSNE和PCA两种算法,可以看出TSNE算法聚类效果好,每一类都分得较为清晰,是由于数据样本非对称且有拖尾,而恰恰TSNE在低维空间使用的是更偏重长尾分布的T分布,使得在高维空间下的距离较大的簇在低维空间中的距离拉大,从而解决数据拥挤问题。而PCA算法大部分数据点都混在一起,聚类效果比较差,是由于PCA是线性降维算法,将原有的d维特征重新压缩到k维特征,使得本来距离较大的数据点压缩的正负例混乱。图3为采用TSNE算法和PCA算法对Indian Pines和Pavia University两组高光谱图像降维的对比图。
3.2 多尺度空间特征
高光谱图像包含了地物的光谱信息及空间结构信息,仅靠单一的光谱特征很难取得精确的分类效果,从这个意义上讲,必须考虑到地物的空间信息,可以帮助确定具有微小差异的像元分类结果。设高光谱图像为X≡(x1,x2,…,x n)∈R N×d,x i表示具有d 维光谱向量的像元(i=1,2,…,N),x i的平方邻域集为:
图3 TSNE算法和PCA算法对比图
具有多尺度空间特征的像元用下式表示:
式中v j=exp表示像元x i对其邻域像元分配不同的权重,γ0表示滤波的程度,在本文中参数γ0设置为0.2。
上述算法提取了高光谱图像的多尺度空间信息,首先选取中心像元的邻域像元集N(x i),再对N(x i)内的像元都分配不同的权重,最后对加权后的像元集合进行滤波操作。空间滤波增加了相邻像素的一致性,加权算法减弱背景像元和干扰像元的影响,提高了分类精确度。多尺度空间特征示意图如图4所示,图5为经过多尺度空间特征和未经过多尺度空间特征算法的高光谱图像对比图。
图4 多尺度空间特征
图5 多尺度特征融合对比图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。