Colling P, Roese-Koerner L, Gottschalk H, et al. metabox+: A new region based active learning method for semantic segmentation using priority maps[J]. arXiv preprint arXiv:2010.01884, 2020.
摘要:
针对语义分割问题提出了一个基于区域的主动学习的方法,称为MataBox+。本文通过训练了一个元回归模型(meta regression model)来对未标记图像每个预测分割的基于分割优先(segment-wise)的IoU进行评估。这里可以看做是对于预测分割效果的一个评估(也就是评估预测的好不好)。选取的区域应该用于最小化目标,即较低的预测IOU值,分割质量和较低的估计标记成本。对于评估后者本文提出了一个简单但有效的方法来评估注释成本。本文与基于熵的方法进行比较,因为本文将熵作为不确定性的度量。本文在Cityscapes数据集上做了大量的实验,在两种网络模型上通过10.47%/32.01%的注释成本达到了95%的mIoU。
介绍
本文的查询策略是基于对分割质量的评估。本文通过一个元回归(meta regression)模型,来预测segment-wise IoU,然后在图像的二次候选区域上来聚合这些信息。进一步,本文提出了一种简单实用的方法来通过点击(click)进行注释成本的评估。通过结合上述方法,本文以低标注成本又有信息量的区域为目标区域。另外,基于点击量的注释,本文提出了新的代价度量。
在实验中,数据集采用Cityscapes,模型为FCN8和Deeplabv3+Xception65。
相关工作:
本文的候选区域是固定大小的方形区域。
在语义分割问题中,作者提出基于熵的不确定性更多的是在分割的边缘,而目标内部的不确定性通常比较低。本文通过评估整个分割段的质量来解决这个问题。
本文直接从分割网络的预测中推断出所需点击的数量,并显示在我们的结果中。
基于区域的主动学习
方法分为两步,首先,通过segment-wise meta regression方法来预测分割质量,然后将标记区域所需要的点击数量的成本估算纳入其中,并将此相加。
方法描述
数据集记为P,已标记数据记为L,未标记数据记为U。
这里是将未标记图像的区域而不是整个图像加入标记数据集中。为了避免同一个区域的多个查询,同时包含在U和L中的区域被标记为查询优先级为0。
我们的目标是查询图像的区域,这导致了一个区域级的查询优先级概念。
在接下来的内容中,本文仅通过神经网络的softmax输出来计算优先级的度量。
这是分割网络经过softmax的输出。这里,w表示图像的宽度,h表示高度,c表示类别数。
优先级图可以看做是另一个函数
每个像素输出一个优先级得分。g函数的输出可以看做是映射优先级的热图。优先级得分越高表示与对应的ground-truth越接近。一个典型的g函数就是熵值图。
需要注意的是,如果一个像素已经被标记了,就将这个对应像素的优先级置为0。
本文提出的区域是固定方形大小,有固定的的宽度b。一个box-wise总体的优先级是通过融合得到的,本文简单采用累加这些优先级得分。也就是一个区域优先级是其所包含的像素优先级的总和。
这可以看作是另一个由常数滤波器卷积运算产生的热图。
感觉就是把区域所计算的有意义的量进行相乘作为这个区域的优先级,也就是预测质量和标记代价相乘。
算法流程如下,首先从U中随机选取部分图像,进行整张图像的标记然后送进L。之后,AL方法就像上文描述的开始进行。定义所有的候选框如下
在每个迭代中选择mq个最高得分的不重叠的框。
基于元回归和点击量估计的联合优先级图
本文中的t为2。首先对于预测质量的估计,本文用metaSeg方法,这个方法对于网络f的预测分割提供了一个在[0,1]内的质量评价。这一方法目的是查询可能被预测的很糟糕的图像区域的ground-truth。将预测的质量映射回给分割的每个像素,然后将这些值聚合到框中,我们得到了我们的第一个优先级映射h(1)。
另一方面,本文希望标注那些成本小的区域。因此,本文评估标注一个区域所需要的点击量。由此,我们定义了另一个优先级地图h(2),它包含高信息量的区域与低估计点击数,反之亦然。我们根据优先级的乘积来查询框,即:
下面,本文更精确地描述优先级映射g(1)(y)和g(2)(y),
通过metaSeg得到优先级。作为优先级映射g(1)(y),本文使用metaSeg,它通过用ground truth预测每个预测段的IoU来估计分割质量。metaSeg使用带有不同类型的手工输入指标的回归模型。
训练metaSeg的回归模型需要分割ground truth来计算每个预测segment的IoU和对应的ground truth。由于在AL方法的每次迭代中预测都会发生变化,所以我们在每次AL迭代中对metaSeg的回归模型进行一次训练。为了能够训练回归模型的ground truth,我们随机选择并标记了一个新的初始样本数据集M,这个数据集将在整个AL过程中被固定。为了通过metaSeg预测网络预测的质量,我们在更新语义分词模型后,执行以下步骤:
对于每个未标记(即,未完全标记)的图像,metaSeg通过注册每个相应像素的预测片段的预测IoU值来提供分割质量热图q(y)。
估计的点击量的优先级。多分类语义分割数据集通常使用基于多边形的标注工具进行标注,这些对象由由边连接的有限个数的顶点来描述,因此后者形成一个闭环。如果ground truth仅以像素为单位给出,则可以通过对分割轮廓应用RDP算法来估计所需的点击次数。
为了估计在AL过程中注释所需的真实点击次数,我们将这个数字与使用RDP算法注释预测的分割(由当前的CNN提供)大约需要点击多少次关联起来。
在本文将RDP算法应用于ground-truth分割的测试中,作者观察到,平均估计的点击数与cityscenes数据集提供的真实点击数相当接近。因此,假设在AL迭代过程中,模型性能不断提高,接近于接近ground truth的分割质量水平,那么所描述的成本估计平均将接近ground truth中的点击数。



