图像分割方法应用于施工现场物体的识别
林庆达;陈敏;禤亮;吴舟舟
【摘 要】复杂场景中的图像分割是当前图像分割中的一个难点,给分割算法带来了更大的挑战.基于深度学习的算法基于统计学理论,相比传统的神经网络,深度学习能够进行更深层次的学习,因此准确率大大提升,本文研究了一种深度信念网模型,加入drop out策略,并且进行改进,最后把模型应用于施工现场勾机的图像分割与识别.实验证明,改进的深度信念网模型算法可以有效的识别复杂场景中的图像.
【期刊名称】《云南电力技术》
【年(卷),期】2017(045)003
【总页数】5页(P63-67)
【关键词】图像分割;深度信念网;drop out;深度学习
【作 者】林庆达;陈敏;禤亮;吴舟舟
【作者单位】广西电网有限责任公司南宁供电局,南宁530031;广西电网有限责任公司南宁供电局,南宁530031;广西电网有限责任公司南宁供电局,南宁530031;广西电网有限责任公司南宁供电局,南宁530031
【正文语种】中 文
【中图分类】TM73
用图像识别的方法来解决电力线路、设备的维护问题被广泛的研究[1-2]。电力线路管道设施在城市施工现场具有很高的受到外力破坏的风险隐患,进而也是电力线路维护人员重点关切的地点。针对施工现场物体的识别,实现智能化实时监测可以提高电力维护人员和现场施工人员联动防范线路外力破坏风险的能力。
图像分割的目的是利用图像的基本特征,比如灰度,颜,纹理和几何形状等特征,把图像分割成多个独立的区域,每个区域代表一个独立的目标。图像分割中不同的分割方法都基于不同的特征和图像模型,因此各有使用范围和优缺点[3]。
基于图论的分割算法是目前计算机视觉和模式识别领域中广泛研究的方向[4-7]。这类算法把
图像的像素直接变换为图论中的一个个节点,像素和像素之间的关系,比如距离,灰度相似度等作为节点之间的连接权重,然后设计一个目标函数,使得切割的成本最低,最后采用图论中的最优化方法,较为流行的算法是Normalized Cut(归一化分割,简称Ncuts)[8]。
传统的贝叶斯,神经网络,支持向量机,随机森林,最近邻算法等,根据收集到的图像特征样本,能够进行训练进行拟合,使得模型的参数能够最优的拟合原始样本的特征,在应用阶段,使用学习到的参数,进行新图像的分割基于机器学习理论的算法充分利用大量的图像样本进行学习,从而保证取得全局最优,被广泛应用于图像分割领域。对于传统的神经网络,假设同时对所有的网络层进行训练,时间复杂就会呈几何倍数增加,假设每次训练一层,又会导致误差梯度扩散,从而导致训练的结果严重欠拟合,无法训练到训练数据的特征空间。
Hinton提出的深度学习算法[9-10],其相比传统的神经网络的单向权重,深度网络将除开顶层外的网络层的权重全部设置成双向的,其他层的双向权重连接构成了图模型。本文基于深度信念网模型算法,并且进行改进-利用图像的颜和区域特性进行特征设计,并且加入drop out策略增强模型的泛化能力[11],并且把drop out改成随机的drop out算法,进一步提升模型的泛化能力。应用于建筑工地现场的勾机图像分割和识别,并和传统的图像分割和识别算法进行比较。
Hinton等人提出了一种改进的神经网络模型,也叫深度学习模型Deep Learning,其建立在非监督数据上,其网络结构相比传统神经网络,更加复杂,但是学习过程更加有效,每次在前向训练过程中,每训练一层网络就进行一次权重的调优,使得原始数据输入x经过网络生成的高级表示r,高级表示r经过反向过程,能够向下生成x’,x和x’的尽可能无限接近。
1.1 波尔兹曼机
原始的玻尔兹曼机(Boltzmann Machine,BM)源于统计物理学领域[12],BM是一种结构对称的随机反馈型二值单元的神经网络,有一个可见层(visible unit)和隐含层(hidden unit)组成,用来表征随机网络和环境的学习结构。
RBM是由Smolensky等人提出的一种简单网络结构模型,只有一个隐含层和一个可见层。RBM的网络结构如图1所示,其中V0和V1是可见层,也就是训练样本的输入层,h0,h1,h2是隐含层。可见层之间没有连接,隐含层之间也不存在连接。
RBM的能量方程E(v,h)定义为:
其中W是可见层和隐含层之间的连接权重,b和c分别是可见层和隐含层的偏置项,把上面能
量变换成自由能量的表达形式:
RBM结构中,当已知可见层,隐含层之间相互独立;当已知隐含层,可见层之间相互独立。利用这个条件独立性限制,可以得到下面的条件概率:
在RBM中,常常使用二值单元,也就是隐含层和输入层的取值为0或者1,在RBM中,常常使用下面的激活单元:
当隐含层和可见层的取值结果为0或者1的情况下,RBM的自由能量定义为:
而对于权重的更新,使用似然梯度来代替BP网络中的梯度:
在RBM中,需要对样本抽样处理,常常使用马尔科夫链进行运行,具体使用gibbs采样作为转移矩阵的操作[13]。
在RBM结构中,S包含了一组可见或者不可见的神经元结构,相互之间是条件独立,因此可以执行Gibbs采样,在可见单元已知的情况下,进行采样,得到隐含单元的值;在隐含单元可见的情况下, 采样得到可见层的值。一步Markov chainA[14]由下面公式得到:
公式的第一行是使用概率simgm(c+Wv)来随机选择隐含层的其值为1或者0,第二行是使用概率simgm(b+Wh)来随机选择可见层的其值为1或者0,当执行上面的公式无穷次,那么采样的数据就接近真实样本p(v,h)。
1.2 深度信念网
深度信念网(Deep Belief Networks,DBNs)是一个相比RBM而言更加复杂的模型[15],是基于RBM组合而成的复杂网络,建立一个数据和数据标签值的联合分布的模型,对P(Observation|Label)和 P(Label|Observation)同时进行评估。
DBNs一般可以由多个RBM组合而成,一个最基本的DBNs的网络结构如图2所示,总共有1个可见层,3个隐含层,层与层之间存在连接关系,但是层内部不存在连接关系,隐含层能够学习和表征原始数据的高阶特征。DBN的连接通过自顶向下(可见层)的生成权重来指导,而RBM相比传统的神经网络的sigmoid信念网,权重的学习更加方便。
如图3所示,在最高两层,权值是联合在一起的,更底层的输出偏于计算出一个参考的值或者关联给顶层结构,顶层就可以将参考值联系到记忆内容。在DBNS预训练结束后,BND使
用带有标签的数据进行网络权重的微调具体来说,可以使用传统的BP神经网络算法进行权重更新,此时标签的值位于顶层网络(推广其联想记忆),进行自下而上的学习,得到最终的分类器的决策平面。相比传统的BP算法DBNS由于在预备训练阶段,已经保证了权重接近全局最优,而BP是进行权重的随机化,容易陷入到局部最小,因此相比BP的学习过程,可以很快就收敛到全部最优解。。
2.1 改进的Drop out网络模型
Drop out的策略是在训练时让神经网络的某些隐含层节点的权值设置为0,用来解决训练样本过少而导致的模型过拟合问题,本章在Dropout的基础上,进一步改进,再加入一层随机化的过程,可以进一步防止模型的过拟合问题
Drop out在训练过程每次的概率值p(比如为0.5)是固定的,在进行设置好之后,结果不会变,而随机drop out每一轮训练的概率值是不固定的,这样使得随机化更加彻底,其主要公式描述如下:
公式(9)中v是n维,W为d*n维的二维矩阵m为d维(取值为0或1),a(x)是一个激活函数:满足a(0)=0,其中的下标表明一个概率值,其网络结构如图4所示。
2.2 网络学习
随机Dropout的训练过程和测试过程大部分情况下和Drop out类似,不同之处在于随机Drop out在网络前向传播到输出层前时隐含层节点的输出值大约减少p(p是一个动态变化的随机值),而原始的Dropout的p值是固定的。其训练过程为:
1)训练阶段,Dropout没有直接针对权值W采用L2正则化,具体的处理是在进行正则化处理的时候,设置一个正则化上限L。在训练过程中,若当前神经元超出上限,那么就进行归一化操作:W/||L2||,使得每次权值更新的搜索空间更大。
2)纠正阶段,Dropout为了使得模型的泛化能力更强,进行了模型的均值处理:事先设定一个固定的概率值p(比如为0.5),得到某个隐含层的权值为W,然后随机生成一个0到1之间的随机数,当随机数大于0,就保留当前的权值W,否则就将当前权值设置为0。
随机Dropout的主要优点如下:
1)模型的泛化能力进一步提升,随机Dropout每次用样本进行权值更新时,隐含节点都以随机的概率随机出现,模型的防过拟合能力进一步提升,不管在样本过多或者过少的情况下,
都能保证权重不依赖固定关系的隐含节点。
2)随机Dropout是双重模型平均。对于每个样本,在同一轮训练中,不同位置处的像素其网络结构都是不同的,使得每个位置处的像素更加深入学习到当前局部的特征。
在基本Dropout方法中,设定输出为0的神经元比例在每次网络更新时是恒定的,并在构建网络模型时进行定义。本文使用的随机Dropout的方法,是将设定输出为0的神经元比例在每次网络更新时都进行随机变化。正则化网络
本文的实验的硬件条件为Intel Pentium Dual 1. 8 GHz、4 GB,在Matlab R2013a上实现。使用的深度信念网模型的参数设置为:网络的隐含层为3层,其大小分别是50,迭代次数numepochs=1 000,每次批处理的样本大小为100,动量因子momentum=0.2,激活函数为singm函数。
3.1 图像特征和样本准备
对于图像特征的提取,常常使用的基本特征有颜,亮度,纹理,边缘,形状等,另外还有一些高级特征,比如gabor滤波器特征[16],尺度旋转不变(Scale Invariant Feature Transfo
rm,SIFT)特征[17],方向梯度直方图(Histogram of Oriented Gradient, HOG)[18],Haar-like特征等[19]。本文使用最基本的颜特征作为输入,经过深度学习的拟合,能够充分拟合不同目标的特性。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论