基于度量的元学习技术已成功应用于小样本分类问题。在本文中,我们建议利用跨模态信息来增强基于度量的少样本学习方法。根据定义,视觉和语义特征空间具有不同的结构。对于某些概念,视觉特征可能比文本特征更丰富、更具辨别力。而对其他人来说,情况可能正好相反。此外,当视觉信息的支持在图像分类中受到限制时,语义表示(从无监督文本语料库中学习)可以提供强大的先验知识和上下文来帮助学习。基于这两种直觉,我们提出了一种机制,可以根据要学习的新图像类别自适应地组合来自两种模式的信息。通过一系列实验,我们表明,通过这两种模态的这种自适应组合,我们的模型在所有基准测试和所测试的小样本场景上都大大优于当前的单模态小样本学习方法和模态对齐方法。实验还表明,我们的模型可以有效地调整其对两种模态的关注。当镜头数量非常少时,性能的提升特别大。
Introduction
视觉和语义特征空间根据定义具有异构结构。对于某些概念,视觉特征可能比文本特征更丰富、更具辨别力。而对其他人来说,情况可能正好相反。图 1 说明了这一点。此外,当来自视觉方面的支持图像数量非常少时,这种方式提供的信息往往是嘈杂的和局部的。相反,语义表示(从大型无监督文本语料库中学习)可以作为更一般的先验知识和上下文来帮助学习。因此,与其对齐两种模态(将知识转移到视觉模态),对于在测试期间从两种模态提供信息的少样本学习,最好将它们视为两个独立的知识源并自适应地利用这两种模态根据不同的场景。为此,我们提出了自适应模态混合机制(AM3),这是一种自适应和有选择地结合来自视觉和语义两种模态的信息的方法,用于小样本学习。
AM3 建立在基于度量的元学习方法之上。这些方法通过比较学习度量空间(来自视觉数据)中的距离来执行分类。最重要的是,我们的方法还利用文本信息来提高分类准确性。 AM3 针对图像类别在两个不同的表示空间的自适应凸组合中执行分类。通过这种机制,AM3 可以利用这两个空间的优势并相应地调整其重点。对于图 1(左)这样的情况,AM3 更侧重于语义模态以获取一般上下文信息。而对于图 1(右)这样的案例,AM3 更侧重于视觉模态,以捕捉丰富的局部视觉细节以学习新概念。
Contributions
我们提出了用于跨模态小样本分类的自适应模态混合机制 (AM3)。 AM3 通过自适应混合两种模态的语义结构,比模态对齐方法更好地适应小样本学习。我们表明,与不同的基于度量的元学习方法相比,我们的方法在性能上取得了相当大的提升。AM3 在不同数据集和不同shot数量上的小样本分类中以相当大的优势优于当前(单模态和跨模态)最先进的技术。我们进行定量调查,以验证我们的模型可以根据不同的场景有效地调整其对两种模式的关注。
Method
主要过程:
得到支持集的类原型得到支持集类名称的语义向量Ec,然后进行维度变换,使其和视觉特征向量维度一致,然后通过h网络学习得到휆푐进行pc和wc的融合进行查询集和最终类原型的最近邻
在 AM3 中,我们增强了基于度量的 FSL 方法,以结合由词嵌入模型 W(在无监督的大型文本语料库上预训练)学习的语言结构,其中包含 Dtrain ∪ Dtest 中所有类别的标签嵌入。在我们的模型中,我们通过考虑它们的标签嵌入来修改每个类别的原型表示。
更具体地说,我们将新的原型表示建模为两种模态的凸组合。也就是说,对于每个类别 c,新原型计算如下:
其中 h 是自适应混合网络,参数为 θh。图 2(左)说明了所提出的模型。混合系数 λc 可以以不同的变量为条件。在附录 F 中,我们展示了当混合系数以不同变量为条件时性能如何变化。
训练过程类似于原始原型网络的训练过程。然而,距离 d(用于计算每个图像查询的类别分布)在查询和跨模态原型 p′c 之间:
其中 θ = {θf , θg, θh} 是参数集。再一次,通过最小化等式 1 来训练模型。请注意,在这种情况下,概率也取决于词嵌入 W。
实验



