UNICORN论文阅读

Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

本篇论文提出了一个通用的视觉语言模型（命名为UNICORN），该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务，本模型在7个VL benchmarks上面都达到了和sota可比较的结果。
（1）visual grounding：给出一张图像和一个物体描述，生成该物体的bbox；
（2）grounded image captioning：对给定的图像自动生成一句话描述图像内容，同时预测出描述中名词对应的目标位置；
（3）visual question answering
（4）image captioning：图像描述生成

启发：

该模型主要受到了Pix2seq模型的启发。Pix2seq模型是一个简单而通用的目标检测框架，首先Pix2seq采用了一种离散化方案将目标的bbox位置转换成离散的token序列，然后采用了编码器-解码器的结构来预测该token序列，进而将预测结果在词汇表中寻找对照，转换成目标的检测框位置和类别。Pix2seq模型将目标检测转化为一个语言建模任务，能够很容易地将文本序列结合进去，因此本文作者受到启发，建立了UNICORN模型。

模型结构：

和。下面我展示了一个目标序列的实例：

原始序列：A woman is manipulating 
dishes in a dishwasher with a 
man and another woman next to her .

目标序列： A woman <35> <56> 
<101> <199>  is manipulating
 dishes <79> <144> <99> <179> 
 in  a dishwasher <76>
<178> <113> <199>  with 
 a man <91> <13> <181> <199> 
 and  another woman 
<156> <37> <195> <199>  
next to her .

评价：

该模型不需要针对不同的问题设计不同的head，采用一个统一的结构就能够在不同的vl任务上取得和sota可比较的效果，具有启发意义。

UNICORN论文阅读

Python相关栏目本月热门文章