⼩样本学习Few-shotlearning
One-shot learning
Zero-shot learning
Multi-shot learning
Sparse
Fine-grained Fine-tune
背景:CVPR 2018收录了4篇关于⼩样本学习的论⽂,⽽到了CVPR 2019,这⼀数量激增到了近20篇
那么什么是⼩样本学习呢?
在机器学习⾥⾯,训练时你有很多的样本可供训练,⽽如果测试集和你的训练集不⼀样,那么这时候称为⽀持集support data。在测试时,你会⾯对新的类别(通常为 5 类),其中每个类别仅有极少量的样本(通常每类只有 1 个或 5 个样本,称为「⽀持集」),以及来⾃相同类别的查询图像。
接下来,本⽂将把⼩样本⽅法划分为 5 个不同的类别(尽管这些类别并没有明确的界定,许多⽅法同时属
于不⽌⼀个类别)。
正则化描述正确的是(1)度量学习。其⽬标是学习从⼀个从图像到嵌⼊空间的映射,在该空间中,同⼀类图像彼此间的距离较近,⽽不同类的图像距离则较远。我们希望这种性质适⽤于那些没有见过的类。(建⽴新样本和旧样本的关系)
(2)元学习。这类模型建⽴在当前所⾯对的任务的基础上,因此使⽤不同的分类器作为⽀持集的函数。其思路是寻模型的
(3)数据增强⽅法。它的思想是通过数据增强的⽅式,从⽽通过少量可⽤的样本⽣成更多的样本。
(4)基于语义的⽅法。这类⽅法受到了零样本学习(Zero-shot learning)的启发,其中分类任务的完成仅仅基于类别的名称、⽂本描述或属性。当视觉信息稀缺时,这些额外的语义信息也可能很有⽤。
Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning 基于局部描述⼦的图像到类度量的少图像学习
Few-Shot Learning with Localization in Realistic Settings 真实场景中的少图像定位学习
Dense Classification and Implanting for Few-Shot Learning 密集分类与植⼊少镜头学习
Variational Prototyping-Encoder: One-Shot Learning with Prototypical Images 变分原型编码器:基于原型图像的⼀次学习
Edge-Labeling Graph Neural Network for Few-shot Learning ⽤于少图像学习的边缘标记图神经⽹络
Task Agnostic Meta-Learning for Few-Shot Learning ⾯向少图像学习的任务不可知元学习
Meta-Transfer Learning for Few-Shot Learning 元迁移学习在少图像学习中的应⽤
Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning 基于GNN去噪⾃编码器的分类权值⽣成Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 基于类别遍历的少图像学习任务相关特征的发现
LaSO: Label-Set Operations networks for multi-label few-shot learning 多标签少镜头学习的标签集操作⽹络
Few-shot Learning via Saliency-guided Hallucination of Samples 通过显著性引导样本产⽣幻觉的少量镜头学习
Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification 点和学习:⼀种⽤于最⼩镜头图像分类的最⼤熵贴⽚采样器
Image Deformation Meta-Networks for One-Shot Learning ⼀次学习的图像变形元⽹络
Baby steps towards few-shot learning with multiple semantics 婴⼉多语义学⾛向少镜头学习
Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders 基于对齐变分⾃编码器的⼴义零炮和少图像学习
TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning TAFE⽹:⽤于低镜头学习的任务感知特征嵌⼊
Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy ⼤规模少镜头学习:基于类层次的知识转移
物体识别之外(其它任务中的⼩样本学习)
RepMet: Representative-based metric learning for classification and few-shot object detection RepMet:基于代表性度量学习的分类与少镜头⽬标检测
CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning CANet:具有迭代求精和注意少镜头学习的类不可知分割⽹络
度量学习⽅法:《Revisiting Local Descriptor based Image-to-Class Measure for Few-shot Learning 基于局部描述⼦的图像到类度量的少镜头学习》简介
在本⽂中,作者稍微⾛起了点怀旧风,采⽤了词袋(bag-of-words)模型时代使⽤的局部描述⼦,但是特征则是使⽤⼀个卷积神经⽹络(CNN)提取到的,⽽整个学习框架都是端到端的。它的实验结果略微低于对⽐基准。
度量学习⽅法:《Few-Shot Learning with Localization in Realistic Settings 真实场景中的少图像定位学习》简介
本⽂声称,标准的⼩样本学习对⽐基准测试是不符合现实情况的,因为它们使⽤的不同类别的数据是被⼈为设定成平衡的,⽽且测试时使⽤的是 5 类样本,因此本⽂作者建议使⽤⼀个新的数据集/对⽐基准。同时,让模型同时学习进⾏定位和分类;这样做显⽽易见的缺点是需要⽤到带有边界框标注的数据集。分类器是建⽴在原型⽹络之上的,但使⽤的特征向量是由聚合的前景和背景表征连接⽽成的。
度量学习⽅法:《Dense Classification and Implanting for Few-Shot Learning 密集分类与植⼊少镜头学习》简介
在本⽂中,分类任务是密集地执⾏的,即所有的空间位置都需要被正确地分类,⽽不是在最后进⾏全局
平均池化处理。此外,在测试期间,本⽂作者并不是在最后⼀层才进⾏调优,⽽是通过添加神经元扩⼤每⼀层并对它们进⾏调优(只有额外添加的权重会被训练,旧的权重会被冻结)。
度量学习⽅法:《Variational Prototyping-Encoder: One-Shot Learning with Prototypical Images 变分原型编码器:基于原型图像的⼀次学习》简介
这是⼀个单样本分类技术的更具体的应⽤,针对的是标志或路标分类问题。在本例中,作者将标准图形化的图像(与现实中的真实标志/路标相对应)作为原型。他们通过学习⼀个将真实标志/路标图像映射到原型图像上的元任务学习来学习⼀种良好的表征。
元学习⽅法:《Edge-Labeling Graph Neural Network for Few-shot Learning ⽤于少图像学习的边缘标记图神经⽹络》简介
图神经⽹络已经被⽤于⼩样本学习领域。其基本思想是,每个图像都可以作为图中的⼀个节点来表⽰,⽽且信息(节点表征)可以根据它们之间的相似度在它们之间传播。通常⽽⾔,分类任务是根据节点表征之间的距离隐式地完成的。在这⾥,作者建议在每条边上加上显式的特征来描述节点之间的相似度。
元学习⽅法:《Task Agnostic Meta-Learning for Few-Shot Learning ⾯向少图像学习的任务不可知元学习》简介
在这项⼯作中,为了避免元学习模型对训练任务过拟合,作者在输出预测时加⼊了⼀个正则化项。正则化要么会使预测具有更⾼的熵(即预测的概率不会看起来像⼀个独热⽮量),要么使模型在不同任务之间的差异更⼩(即在不同任务上表现相同)。显然,对于⼩样本学习来说,有⼀个强⼤的正则化机制是⼗分重要的,但我并不能直观地理解为什么我们需要的是⽂中体到的特定的正则项。本⽂作者在 MAML 的基础上测试了该⽅法,得到了更优的性能。不妨看看将其应⽤于其它⽅法上是否也会对性能提升有所帮助!
元学习⽅法:《Meta-Transfer Learning for Few-Shot Learning 元迁移学习在少图像学习中的应⽤》简介
该⽅法有两个主要的组成部分:(1)对⼀个预训练的模型调优,其中权值是冻结的,在每⼀层中只学习放缩和偏置(Scaling and Shifting);(2)困难任务挖掘。如果我没弄错的话,MAML 对批量归⼀化层进⾏了调优,这难道不是具有和「学习放缩和偏置」相同的效果吗?似乎将困难批量挖掘(根据之前的任务中具有较低的准确率的类组成的任务)应⽤到 MAML 上也是有所帮助的。
元学习⽅法:《Generating Classification Weights with GNN Denoising Autoencoders for Few-Shot Learning 基于GNN去噪⾃编码器的分类权值⽣成》简介
在本⽂中,作者再次建⽴模型预测分类器对于未见过的类的权重。此外,所有分类器的权重都会被传递
给⼀个通过⼀个图神经⽹络实现的去噪⾃编码器(基类和任务中的新类别),从⽽做到:(1)让分类器能够适应当前任务的类别(2)将基类分类器的知识传播给新类分类器。使⽤去躁⾃编码器有助于修正预测得到的分类器,因为这些分类器仅仅只基于少量的⽰例预测得到,有明显的噪声。
元学习⽅法:《Finding Task-Relevant Features for Few-Shot Learning by Category Traversal 基于类别遍历的少图像学习任务相关特征的发现》简介
给定⼀个特征提取器,该模型⼤体上可以预测⼀个特征向量上的注意⼒映射。「Concentrator」会分别查看每个类(或图像),⽽「Projector」则会融合来⾃任务中所有类的信息来⽣成注意⼒映射。「Concentrator」和「Projector」都是通过⼀个⼩型的卷积神经⽹络(CNN)来实现的。我⾮常喜欢这种简单的模块,当在⼏个⼀致的基于度量的⽅法上使⽤该模块时,它们总是可以提升性能。
数据增强⽅法:《LaSO: Label-Set Operations networks for multi-label few-shot learning 多标签少镜头学习的标签集操作⽹络》简介
本⽂的研究课题是多标签⼩样本分类问题。在本⽂中,作者训练模型在嵌⼊空间中对多标签样本的标签集执⾏集合运算(求并集、差集、交集)。例如,通过对狗和猫的图像求并集,可以得到同时包含狗和猫的图像的表征。之后,作者使⽤这些操作来增强数据并提⾼分类性能。
数据增强⽅法:《Few-shot Learning via Saliency-guided Hallucination of Samples 通过显著性引导样本产⽣幻觉的少量镜头学习》简介
本⽂的研究课题是多标签⼩样本分类问题。在本⽂中,作者训练模型在嵌⼊空间中对多标签样本的标签集执⾏集合运算(求并集、差集、交集)。例如,通过对狗和猫的图像求并集,可以得到同时包含狗和猫的图像的表征。之后,作者使⽤这些操作来增强数据并提⾼分类性能。
数据增强⽅法:《Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification 点和学习:⼀种⽤于最⼩镜头图像分类的最⼤熵贴⽚采样器》简介
在本⽂中,作者计算了每⼀个图块(patch)的表征(⽽不是仅仅学习整幅图像的表征),然后通过使⽤了最优图块轨迹的 RNN(即决定下⼀步应该使⽤哪⼀个图块)来聚合这种表征,该轨迹是通过⼀个强化学习模型预测得到的。与简单的注意⼒模型相⽐,我认为该模型由于其具有数据增强⽅法(对于同⼀张图像使⽤不同的轨迹),要更好⼀些。然⽽,基准对⽐测试的结果只能说马马虎虎。我想知道仅仅使⽤⼀个
随机的轨迹进⾏增强是否也会起到相同的作⽤。
数据增强⽅法:《Image Deformation Meta-Networks for One-Shot Learning ⼀次学习的图像变形元⽹络》简介
这是⼀种⾮常酷的数据增强⽅法。该⽅法类似于「mixup」(/pdf/1710.09412v1.pdf),但是这⾥的图像被根据⼀个⽹格进⾏了划分,并且为每个单元使⽤了不同的预测出的「mixup」系数。模型训练是端到端的,同时进⾏分类器的学习和对「mixup」的优化(指更好的分类效果)。本⽂作者将提出的模型与「mixup」进⾏了对⽐,但是我们想知道:如果系数是预测得出的⽽⾮随机的,「mixup」对整幅图像的效果如何,即不同的「混合」⽅式对于每个单元的影响如何。
基于语义的⽅法:《Baby steps towards few-shot learning with multiple semantics 婴⼉多语义学⾛向少镜头学习》简介
本⽂作者在 CVPR 的「语⾔与视觉 Workshop」上展⽰了⾃⼰的⼯作。作者基于 AM3 模型[Xing et. al, 2019]构建了⾃⼰的模型,并将其泛化,从⽽利⽤多种语义。同时,作者还使⽤了关于类别的短⽂本描述(这些描述是 ImageNet 的⼀部分,但是⾄今仍未被⽤于⼩样本学习)来提升性能。从可视化原型开始,他们便采⽤⼀系列语义嵌⼊迭代地更新这些可视化原型。通过这样做,该论⽂提出的⽅法实现了⽬前在miniImageNet 上最佳的性能。
基于语义的⽅法:《Generalized Zero- and Few-Shot Learning via Aligned Variational Autoencoders 基于对齐变分⾃编码器的⼴义零炮和少图像学习》简介
本⽂作者训练了两个变分⾃编码器(VAE),⼀个⽤于视觉特征,另⼀个则⽤于语义特征。其⽬的是能
够根据潜在的视觉特征重建语义特征,反之亦然。作者表明,使得两个潜在空间具有相同的分布也很有帮助。
基于语义的⽅法:《TAFE-Net: Task-Aware Feature Embeddings for Low Shot Learning TAFE⽹:⽤于低镜头学习的任务感知特征嵌⼊》简介
在这项⼯作中,标签嵌⼊(GloVe)被⽤来预测数据特征提取模型的权重。他们提出了⼀种很好的⽅法来分解权重,从⽽只需要预测⼀个较低维的权重向量。此外,通过「嵌⼊损失」迫使语义嵌⼊和视觉嵌⼊对齐。这篇论⽂的有趣之处在于,它结合了两种⽅法:元学习(基于任务来预测模型),以及利⽤语义信息(标签)。然⽽,对于⼩样本学习任务⽽⾔,似乎本⽂提出的模型稍微弱于现有的最佳⽅法。
基于语义的⽅法:《Large-Scale Few-Shot Learning: Knowledge Transfer With Class Hierarchy ⼤规模少镜头学习:基于类层次的知识转移》简介
作者声称现有的⽅法在⼤规模⼩样本学习任务往往会失败,例如在 ImageNet ⽽不是在像 miniImageNet 种的 64 个基类这样的⼩型数据集上进⾏预训练,并且其结果也并没有优于简单的对⽐基线。在本⽂中,作者也使⽤了语义标签。他们使⽤标签嵌⼊来⽆监督地构建了⼀个类别的层次结构,这是⼀种⾮常有趣的⽅法,学习以这种层次化的⽅式进⾏分类可能有助于模型捕获那些在未见过的类上表现更好的特征。然⽽需要警醒的是,将未见过的类标签⽤于构建类别的层次结构是不是有作弊之虞?
物体识别之外(其它任务中的⼩样本学习):《RepMet: Representative-based metric learning for classification and few-shot object detection RepMet:基于代表性度量学习的分类与少镜头⽬标检测》简介
该博⽂的作者也参与了这篇论⽂的⼯作。在本⽂中,作者率先研究了⼩样本⽬标检测。他们的解决⽅案是将⼀种基于度量的⽅法(如原型⽹络)扩展到⽬标检测任务上。他们使⽤了⼀种现成的检测器架构(FPN-DCN),并使⽤⼀种基于度量的分类器替换了线性分类器头,在该⽅法中,对检测出的每个区域的分类是基于特征向量到学到的类别的表征的距离⽽得出的。论⽂作者建议为⼩样本检测问题使⽤⼀种新的对⽐基准,并且展⽰了该论⽂提出的⽅法相对于对⽐⽅法的提升。
物体识别之外(其它任务中的⼩样本学习):《CANet: Class-Agnostic Segmentation Networks with Iterative Refinement and Attentive Few-Shot Learning CANet:具有迭代求精和注意少镜头学习的类不可知分割⽹络》简介
本⽂将度量学习扩展到了稠密场景下的⼩样本分割任务中。将查询图像中的所有局部特征与⽀持集中物体的所有局部特征进⾏对⽐的计算开销是⾮常⼤的。因此,本⽂作者选择将查询图像中的局部特征与⽀持集图像的全局表征进⾏对⽐。
参考:⾊列特拉维夫⼤学的在读博⼠研究⽣ Eli Schwarts 《从 CVPR 2019 ⼀览⼩样本学习研究进展》

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。