栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

UNICORN论文阅读

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

UNICORN论文阅读

Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling

本篇论文提出了一个通用的视觉语言模型(命名为UNICORN),该模型将文本生成和bbox预测统一在一个模型结构中。针对下述的4个任务,本模型在7个VL benchmarks上面都达到了和sota可比较的结果。
(1)visual grounding:给出一张图像和一个物体描述,生成该物体的bbox;
(2)grounded image captioning:对给定的图像自动生成一句话描述图像内容,同时预测出描述中名词对应的目标位置;
(3)visual question answering
(4)image captioning:图像描述生成

启发:

该模型主要受到了Pix2seq模型的启发。Pix2seq模型是一个简单而通用的目标检测框架,首先Pix2seq采用了一种离散化方案将目标的bbox位置转换成离散的token序列,然后采用了编码器-解码器的结构来预测该token序列,进而将预测结果在词汇表中寻找对照,转换成目标的检测框位置和类别。Pix2seq模型将目标检测转化为一个语言建模任务,能够很容易地将文本序列结合进去,因此本文作者受到启发,建立了UNICORN模型。

模型结构:

    图像encoder:采用一个通用的卷积网络提取图像特征;文本encoder:采用一个通用的文本encoder模型提取文本特征;多模态encoder-decoder:将图像特征和文本特征结合起来作为输入,采用transformer encoder-decoder结构来预测目标序列;目标序列:
      如果是针对grounded image captioning任务,不仅需要生成图像描述,还需要预测出目标位置。目标位置的预测需要对gt进行box位置序列化:将box的xyxy位置,划分到200个bins内,完成序列化;如上图所示,一个box的位置坐标为[600.5,331.6,1227.7,721.2],通过序列化之后,将位置坐标映射为了[90,84,184,180]。作者在将目标位置和图像描述结合起来时,还采用两个特殊的token来标记目标名称,分别是。下面我展示了一个目标序列的实例:
      原始序列:A woman is manipulating 
      dishes in a dishwasher with a 
      man and another woman next to her .
      
      目标序列: A woman <35> <56> 
      <101> <199>  is manipulating
       dishes <79> <144> <99> <179> 
       in  a dishwasher <76>
      <178> <113> <199>  with 
       a man <91> <13> <181> <199> 
       and  another woman 
      <156> <37> <195> <199>  
      next to her .
      

评价:

该模型不需要针对不同的问题设计不同的head,采用一个统一的结构就能够在不同的vl任务上取得和sota可比较的效果,具有启发意义。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/740175.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号