(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 106919951 A
(43)申请公布日 2017.07.04
(21)申请号 CN201710059373.X
(22)申请日 2017.01.24
(71)申请人 杭州电子科技大学
    地址 310018 浙江省杭州市下沙高教园区2号大街
(72)发明人 俞俊 谭敏 郑光剑
(74)专利代理机构 杭州君度专利代理事务所(特殊普通合伙)
    代理人 杜军
(51)Int.CI
      G06K9/62
      G06F17/30
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      一种基于点击与视觉融合的弱监督双线性深度学习方法
(57)摘要
      本发明公开了一种基于点击与视觉融合的弱监督双线性深度学习方法。本发明包括如下步骤:1、从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;2、点击与视觉特征融合的深度模型构建;3、BP学习网络模型参数;4、计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可靠性,利用可靠性给样本加权;5、重复步骤3和4,迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛。本发明融合了点击数据和视觉特征从而构造了新的双线性卷积神经网络框架,能用来更好的对细粒度图像进行识别。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1.一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于包括如下步骤:
步骤(1)、点击数据预处理:
从点击数据集中提取每幅图像的文本构成的点击特征,并通过合并语义相近的文本,在合并后的文本空间下构建新的低维紧凑的点击特征;
步骤(2)、点击与视觉特征融合的深度模型构建:
对样本基于可靠性加权,构建一个带权重的三通道深度神经网络模型,其中两个通道提取图像视觉特征,第三通道处理步骤1的点击特征;将视觉与点击特征通过特征连接层进行融合;
步骤(3)、BP学习模型参数:
通过反向传播算法对步骤(2)中神经网络的网络模型参数进行训练,直至整个网络模型收敛;
步骤(4)、学习样本可靠性:
根据步骤(2)的神经网络模型,计算每一个训练样本的模型预测损失,并构造样本集的相似度矩阵,同时利用样本损失和相似度矩阵学习样本可靠性,利用可靠性给样本加权;
步骤(5)、模型训练:正则化其实是破坏最优化
重复步骤3和4,迭代地优化神经网络模型和样本权重,从而训练整个网络模型直到收敛。
2.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(1)所述的从点击数据集中提取出图像对应的点击特征并将其按语义聚类合并,具体如下:
1-1.从点击数据集中提取出图像i对应的文本构成点击特征<Image>其具体公式如下:
<Image></Image>
其中c<Sub>i,j</Sub>是图像i和文本j对应的点击量;
1-2.为了得到短而紧凑的特征向量,对点击特征降维从而减小计算量并解决文本语义重复等问题,利用了K均值聚类的方法间接的对文本进行聚类,从而得到了一个文本聚类的索引<Image>并将同一类的文本的点击量相加,得到新的点击特征u<Sub>i</Sub>,具体如公式2所示:
<Image></Image>
其中<Image>表示第j个文本类。
3.根据权利要求1所述的一种基于点击与视觉融合的弱监督双线性深度学习方法,其特征在于步骤(2)所述的构建一个点击与视觉特征融合的深度模型,将视觉特征和点击特征连接在一起,具体如下:
2-1.构建一个三通道的网络框架结构W-C-BCNN,其中前两通道采用双线性卷积神经网络提取图像的视觉特征z<Sub>i</Sub>,第三通道提取步骤(1)中得到的对应图像的点击特征u<Sub>i</Sub>;然后将提取的视觉特征和点击特征通过连接层拼接起来,输出一个同时具有视觉和语义表达能力的特征o<Sub>i</Sub>,具体如公式3所示:

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。