链接 https://pan.baidu.com/s/1R8xcrxZkLnX9dI1CknvJNg
提取码 j33d【注】 翻译仅供参考 准确含义和表达参考英文原文 关于用二维自我注意识别任意形状的文本的问题 摘要
场景文本识别 STR 是识别自然场景中的字符序列的任务。虽然STR方法已经有了很大的进步 但目前的方法仍然不能识别任意形状的文本 如严重弯曲或旋转的文本 这些文本在日常生活中非常多 如餐厅标志、产品标签、公司标志等 。本文介绍了一种识别任意形状文本的新结构 名为自我注意文本识别网络 SATRN 它的灵感来自于Transformer。SATRN利用自我注意机制来描述场景文本图像中字符的二维 2D 空间依赖性。利用自我注意的全图传播 SATRN可以识别具有任意排列和大字符间距的文本。因此 SATRN在 不规则文本 基准中比现有的STR模型平均高出5.7 pp。我们提供实证分析 说明该模型的内在机制和适用范围 如旋转和多行文本 。我们将开放代码。
https://github.com/Media-Smart/vedastr
场景文本识别 STR 解决了以下问题 给定一个紧密包含取自自然场景 如车牌和街道上的海报 的文本的图像补丁 字符的序列是什么 (Zhu, Yao, and Bai 2016; Long, He, and Ya 2018 深度神经网络的应用使STR模型的性能有了很大的提高 Shi et al. 2016; Lee and Osindero 2016; Yang et al. 2017; Cheng et al. 2017; Liu, Chen, and Wong 2018; Bai et al. 2018 。它们通常将卷积神经网络 CNN 特征提取器与随后的递归神经网络 RNN 字符序列生成器结合起来 后者负责字符解码和语言建模 旨在抽象输入补丁。该模型是以端到端的方式进行训练的。
图1 任意形状的文本 场景外部识别的剩余挑战。
图2 SATRN通过采用自我注意机制来解决困难形状的文本图像 弯曲的 BMW 标志 同时保持中间特征图的二维性。因此 SATRN建立了跨越二维空间的长程依赖关系模型 这是识别不规则几何形状的文本所必需的特征。
虽然这些方法给该领域带来了进步 但它们是建立在输入文本是水平书写的假设之上的。例如 Cheng等人 Cheng等人 2017 和Shi等人 Shi等人 2016 2018 将二维CNN特征图的高度部分折叠成一维特征图。他们在概念上和经验上都不擅长解释具有任意形状的文本 这在现实的部署场景中是重要的挑战。
意识到识别任意形状的文本的意义和难度 STR社区更加重视此类图像类型。引入 不规则形状 的STR基准 Baek等人 2019年 就是这种兴趣的一个证明。在方法方面 最近的STR方法更加注重解决不规则形状的文本。主要有两条研究路线。(1 输入矫正和 2 二维特征图的使用。输入矫正 Shi等人 2016 2018 Liu Chen和Wong 2018 Liu等人 2016 Gao等人 2018 使用空间变换器网络 STN Jaderberg等人 2015 将文本图像规范化为典型的形状 高度和宽度一致的水平排列的字符。然而 这些方法都有一个局限性 即必须事先指定可能的变换系列。
而使用二维特征图的方法 Cheng等人 2018 Yang等人 2017 Li等人 2019 则是将原始输入图像不做任何修改 学习二维特征图 并在二维空间上依次检索字符。虽然二维特征图的使用无疑为更复杂的建模增加了空间 但现有方法的具体设计仍然受限于假设输入文本是水平书写的 SAR Li等人 2019 过于复杂的模型结构 AON Cheng等人 2018 或对地面真实字符边界框的要求 ATR Yang等人 2017 。我们认为社区一直缺乏一个简单的解决方案来很好地处理任意形状的文本。在本文中 我们提出了一个STR模型 该模型采用了二维自我注意机制来解决STR中剩余的挑战性案例。我们的架构在很大程度上受到Transformer Vaswani等人 2017 的启发 它在自然语言处理 Al-Rfou等人 2018 Devlin等人 2019 和视觉 Parmar等人 2018 领域取得了深刻的进展。我们的解决方案 即自我注意文本识别网络 SATRN 采用了Transformer的编码器-解码器结构来解决图像输入和文本输出之间的跨模式性。整个网络的中间特征图是二维的。通过永不折叠的高度维度 我们比之前的方法更好地保留了空间信息 Li等人 2019 。图2描述了SATRN如何在整个前向传递过程中保留空间信息 与之前的方法不同。
虽然SATRN由于解码器沿用了原始的字符级Transformer而表现出色 但我们发现 要想在二维特征图中充分实现自我注意的好处 必须对Transformer编码器进行一些新的修改。我们引入了三个新模块。(1 浅层CNN 2 自适应二维位置编码 以及 3 局部感知前馈层。我们将在正文中更详细地解释它们。
由此产生的模型 SATRN 结构简单 内存高效 而且准确。我们评估了SATRN在七个基准数据集和我们新引入的旋转文本和多行文本上的卓越准确性 以及它在计算成本上的优势。我们通过消融实验证明了编码器的设计选择。我们注意到SATRN在七个基准数据集中的五个是最先进的模型 在 不规则 基准上比之前的技术水平有5.7 pp的平均提升。
我们贡献了 1 受Transformer启发的SATRN 以解决STR的剩余挑战 2 SATRN编码器中的新型模块 使Transformer对STR有效且高效 以及 3 对拟议模块效果的实验分析 并验证SATRN对极端形状的文本特别好。
在这一节中 我们介绍了先前关于场景文本识别的工作 重点是它们如何尝试解决任意形状的文本。然后 我们讨论以前在视觉任务上使用Transformer的工作 并比较我们的方法与它们的不同之处。
任意形状上的场景文本识别早期的STR模型假设文本是水平对齐的。这些方法从输入图像中提取宽度方向的一维特征 并将其转化为字符序列 Shi等人 2016 Lee和Osindero 2016 Yang等人 2017 Cheng等人 2017 Liu Chen和Wong 2018 Bai等人 2018 Sheng Chen和徐 2018 Baek等人 2019 。根据设计 这类模型未能解决弯曲或旋转的文本。为了克服这个问题 空间变换网络 STN 已被应用于将文本图像调整为经典形状 水平对齐和统一字符宽度和高度 Shi等人 2016 2018 Liu Chen和Wong 2018 Liu等人 2016 Gao等人 2018 。STN确实在一定程度上处理了非经典的文本形状 但受限于变换空间的手工设计和图像插值导致的精细细节损失。
最近的工作通过保留二维特征图到网络中的某些层以及跨二维空间的信息传播 取代了输入级的归一化 将归一化的负担分散到多个层。Cheng等人 Cheng et al. 2018 首先通过将中间的二维特征图投射到四个方向来计算四个一维特征。他们引入了一个选择模块来动态地挑选这四个特征中的一个。他们的方法仍然局限于这四个预定义的方向。Yang等人 Yang et al. 2017 则在二维特征上开发了一个二维注意力模型。他们的方法的主要缺点是需要昂贵的字符级监督。Li等人 Li et al. 2019 直接在二维特征图上应用注意力机制来生成文本。然而 他们的方法由于高度集合和RNN而失去了完整的空间信息 因此在本质上偏向于水平排列的文本。这些先前的工作利用了一个序列发生器 按照文本中的字符顺序依次注意二维特征图上的某些区域。在这项工作中 我们提出了一个更简单的解决方案 将自我注意机制 Vaswani等人 2017 应用于二维特征图。这种方法使字符特征能够意识到它们的空间顺序 并支持序列发生器在没有任何额外监督的情况下跟踪该顺序。
Transformer已被引入自然语言处理领域 Vaswani等人 2017 Devlin等人 2019 Al-Rfou等人 2018 。通过自我注意允许长距离的成对依赖 它在众多基准中取得了突破性进展。最初的Transformer是一个序列到序列的模型 由一对编码器和解码器组成 不依赖任何递归模块。
Transformer已被解决一般视觉任务的方法所采用 如动作识别 Wang等人 2017 、物体检测 Wang等人 2017 、语义分割 Wang等人 2017 Huang等人 2019 和图像生成 Zhang等人 2019 Parmar等人 2018 。自我注意机制已被扩展到二维特征图 以捕捉长距离的空间依赖性。由于对空间特征的天真扩展引起了高计算成本 这些工作考虑通过卷积层 Wang等人 2017 或配对修剪 Huang等人 2019 减少配对连接的数量。我们在SATRN中采用了这些技术来完成STR任务 细节将在后面讨论。
本节全面详细地描述了我们的场景文本识别 STR 模型 自我注意文本识别网络 SATRN 。许多模块和设计选择都继承了成功的Transformer模型 Vaswani等人 2017 但也有几个新颖的修改 以成功适应STR任务。我们将提供一个SATRN架构的概述 然后重点介绍新引入的模块。
SATRN概述图3显示了SATRN的整体结构。它由一个编码器 左栏 和一个解码器 右栏 组成 前者将图像嵌入二维特征图 后者则从特征图中提取一串字符。
编码器编码器通过捕捉局部模式和纹理的浅层CNN来处理输入图像。然后 特征图被传递给一堆自我注意模块 再加上自适应二维位置编码 这是一种为STR任务开发的新型位置编码方法。自我注意模块是原始Transformer自我注意模块的修改版 其中的点式前馈被我们的局部感知前馈层所取代。自我注意模块被重复了Ne次 不共享权重 。在下一节中 我们将详细描述SATRN的组件 这些组件是在原始Transformer的基础上新引入编码器的。
解码器解码器从编码器中检索出丰富的二维特征 以生成一串字符。图像输入和文本输出之间的跨模式性发生在第二个多头注意模块。该模块检索下一个字符的视觉特征。 当前字符的特征被用来在二维特征图上检索下一个字符的视觉特征。大多数解码器模块 如多头注意力和点状前馈层 与Transformer Vaswani等人 2017 的解码器相同 因为我们的案例中的解码器也处理字符序列 Al-Rfou等人 2018 。我们在方法上的贡献集中在调整编码器以提取沿任意形状嵌入图像的序列信息。
图3 SATRN结构概述。左栏是编码器 右栏是解码器。
为STR设计编码器我们解释了我们是如何设计编码器以有效和高效地从图像中提取顺序信息的。有三个主要结构修改了原始的Transformer架构。我们将对它们中的每一个进行解释。
浅层CNN块输入图像首先通过一个浅层CNN进行处理。这个阶段提取输入图像中的基本模式和纹理 以便在随后的自我注意模块中进一步处理。与自然语言处理不同 视觉输入往往需要更多的抽象 因为有许多背景特征需要抑制 例如 菜单板的背景纹理 。因此 直接应用Transformer架构会给昂贵的自我注意计算带来很大的负担。这个浅层CNN模块执行池化操作以减少这种负担。
更具体地说 浅层CNN块由两个3×3核的卷积层组成 每个卷积层后面都有一个2×2核的步长的最大池层。在我们的初步研究中 由此产生的1/4的减少系数在计算-性能权衡方面提供了一个良好的平衡。如果空间维度进一步减少 性能就会严重下降 如果减少得少 后面的自我注意块的计算负担就会增加很多。
由浅层CNN产生的特征图被送入自我注意块。然而 自我注意块对其输入的空间安排是不可知的 就像全连接层 。因此 原来的Transformer进一步将位置编码–一个包含修改过的索引值的数组–反馈给自我注意模块 以提供缺乏的位置信息。
位置编码 PE 在视觉任务中并不重要 Zhang等人 2019 Wang等人 2017 Huang等人 2019 在这些情况下 重点是提供卷积所不能捕捉的长距离依赖。另一方面 位置信息在识别任意形状的文本中起着重要的作用 因为自我注意本身并没有提供绝对的位置信息 给定当前字符的位置 我们到底能在图像的什么地方找到下一个字符 缺少位置信息使得模型很难按顺序追踪字符的位置。因此 SATRN采用了位置编码的二维扩展。
然而 位置编码的天真应用无法处理字符排列的多样性。例如 沿宽度维度的10个像素的水平文本将比对角线文本平均包含较少的字符数。因此 应根据输入的类型 在位置编码中使用不同长度的元素。因此 我们提出了自适应二维位置编码 A2DPE 根据输入动态地确定高度和宽度元素的比例。
我们首先描述没有位置编码的自我注意模块。我们用E表示浅层CNN的二维特征输出 用ehw表示其在位置的输入 (h,w)∈[1,…,H]×[1,…,W].自我注意的计算方法是
其中 值数组vhw ehwWv是通过线性权重Wv对输入特征的转换 并且 〖rel〗((h’w’)→(hw))被定义为
其中Wq和Wk是线性权重 将输入映射为查询qhw ehwWq和键khw ehwWk。直观地说。 〖rel〗((h’w’)→(hw))决定了在 (h’,w’)对特征点 h,w 的注意程度。
现在我们在这个框架中介绍我们的位置编码A2DPE phw 如下所示。
请注意 A2DPE是加在输入特征之上的。现在 A2DPE本身被定义为α和β。
其中 p_h^sinu和 p_w^sinu分别是高度和宽度上的正弦波位置编码 定义见 Vaswani等人 2017 。
其中p和i分别为位置维度和隐藏维度的指数。比例因子α(E)和β(E)是由输入特征图E和2层感知器应用于全局平均集合输入特征的情况下计算出来的 如下所示。
其中 W_1^h, W_2^h, W_1^w和 W_2^w是线性权重。g(E)表示E中所有特征的平均集合 输出经过sigmoid运算。确定的α和β直接影响高度和宽度的位置编码 以控制水平轴和垂直轴之间的相对比例来表达空间多样性。通过学习从输入中推断出α和β A2DPE允许模型沿高度和宽度方向调整长度元素。
图4 在自我注意层之后应用的前馈结构选项。
局部感知的前馈层为了获得良好的STR性能 一个模型不仅要利用长距离的依赖关系 而且要利用单个字符周围的局部邻近关系。自我注意层本身善于建立长期依赖关系的模型 但不具备对局部结构给予足够重视的条件。因此 我们通过利用3×3卷积 图4b、4c 改进了由两个1×1卷积层组成的原始逐点前馈层 图4a 。在实验中 我们将表明 在天真的3×3卷积和深度明智的变体之间 后者给出了一个更好的性能-效率权衡。
实验我们报告了我们的模型SATRN的实验结果。首先 我们评估了我们的模型与最先进的方法的准确性。我们增加了对SATRN所显示的空间依赖性的分析。第二 我们在计算效率方面评估了SATRN 即内存消耗和FLOPs的数量。第三 我们进行了消融研究 以评估我们的设计选择 包括浅层CNN、自适应二维位置编码和局部感知前馈层。最后 我们对SATRN进行了评估 评估的对象是目前的基准没有涵盖的更具挑战性的情况 即旋转的和多行的文本。
STR基准数据集七个广泛使用的实词STR基准数据集被用于评估 Baek等人 2019 。根据文本的难度和几何布局 它们被分为两组 规则 和 “不规则”。
下面是包含水平对齐的文本的 规则 数据集。IIIT5K包含2000张训练用图片和3000张测试用图片 这些图片都是从网络上收集来的 大部分是水平方向的文字。街景文本 SVT 包括257张训练用图片和647张测试用图片 这些图片是从谷歌街景中收集的。许多例子都被噪音和模糊严重破坏了。ICDAR2003 IC03 包含867张在商场拍摄的裁剪过的文本图像。ICDAR2013 IC13 由1015张图像组成 继承了IC03的大部分图像。
不规则 基准包含更多任意形状的文本。ICDAR2015 IC15 包含2077个例子 比IC03和IC13更不规则。街景文本透视 SVTP 由645幅图像组成 这些文本通常是在透视图中捕获的。CUTE80 CT80 包括288幅高分辨率的重度弯曲文本图像。样本取自不同领域的真实世界场景。
表1 七个基准测试数据集的场景文本识别准确率 % 。 特征图 表示图像编码器的输出形状。 规则 数据集由水平排列的文本组成 不规则 数据集由更多样的文本形状组成。报告了没有字典匹配的预测序列的准确性。在训练数据中 MJ、ST、C和PRI分别表示MJSynth、SynthText、Character-labeled和私有数据。
实施细节 训练集两个广泛使用的STR训练数据集是Mjsynth和SynthText。Mjsynth是一个用于文本识别的900万个合成数据集 由Jaderberg等人 Jaderberg et al. 2014 生成。SynthText代表来自800K合成场景图像的800万个文本框 由Gupta等人 Gupta, Vedaldi, and Zisserman 2016 提供。以前的大多数工作都使用这两个合成数据集来学习不同风格的合成集 每个合成集都是用不同的引擎生成的。按照Baek等人 Baek et al. 2019 的建议 SATRN在综合训练集SynthText Mjsynth上进行训练 以进行公平比较。
架构细节在训练和测试过程中 输入图像的大小都按照通常的做法调整为32×100。自我注意层的隐藏单元数量为512 前馈层的过滤单元数量为隐藏单元的4倍。编码器和解码器的自我注意层的数量为Ne 12和Nd 6。最终的输出是一个由94个分数组成的向量 10个数字 52个字母 31个特殊字符 1个结束符。
优化我们的模型以端到端的方式使用交叉熵损失进行了训练。我们应用了图像旋转增强 其中旋转量遵循正态分布N 0 34◦ 2 。SATRN是用Adam优化器 Kingma和Ba 2015 训练的 初始学习率为3e-4。循环学习率 Smith 2017 已被使用 其中循环步骤为250,000。批量大小为256 学习在4个epochs后完成。在我们的消融研究中 我们将这种优化方法应用于我们的基线模型 以进行公平比较。
评价我们用空间字符训练我们的模型 采用了 Baek等人 2019 的建议。当我们评估我们的模型时 我们计算了不分大小写的单词准确性 Shi等人 2018 。这样的训练和评估方法已经在最近的STR论文中进行过 Shi等人 2018 Li等人 2019 Liao等人 2018 。在我们的消融研究中 我们使用所有基准的统一评估数据集 共8,539张图像 如 Baek等人 2019年 所做的。
表2 SATRN编码器和解码器对精度和效率 参数数和FLOPs 的影响。第一行对应SAR Li等人 2019 最后一行是提议的SATRN 我们的 。
与先前的STR方法比较我们在表1中把SATRN的性能与现有的STR模型进行了比较。以前的模型的准确率是报告的准确率。方法是根据特征图的维度以及是否使用了空间变换器网络 STN 来分组的。STN模块和二维特征图被设计用来帮助识别任意形状的文本。我们观察到SATRN在所有的基准上都优于其他的二维方法 并且在其中的五个基准上达到了与所有先前考虑的方法相比的最佳性能。特别是在我们要解决的不规则基准上 SATRN比第二好的方法有很大的进步 平均有4.7 pp。
图5 SAR和SATRN的准确度-效率权衡图。我们做了小、中、大的变化 以控制层数。
将SATRN与SAR进行比较
由于SATRN与SAR Li等人 2019年 有许多相似之处 其中的区别在于编码器 自我注意与卷积 和解码器 自我注意与LSTM 的选择 我们通过与SAR的全面比较提供了更详细的分析。我们分析了准确性-效率的权衡 以及它们的质量差异。
我们分析了SATRN编码器和解码器中自我注意层的贡献 同时注意准确性和效率。消融性分析见表2。基准模型是第一行给出的SAR Li等人 2019 ResNet编码器与2D注意力LSTM解码器 人们可以通过只替换SATRN的编码器或解码器来部分更新SAR。
我们观察到 将ResNet编码器升级为SATRN编码器 比LSTM和SATRN解码器分别提高了1.0 pp和0.9 pp 同时实际上提高了空间和时间效率 在两种情况下都减少了1200万个参数和5.5B FLOPs 。这是自我注意层所享有的固有计算效率的结果 也是SATRN编码器的精心设计 通过有效地模拟特征的长期和短期依赖性来减少FLOPs。SATRN解码器与原来的Transformer解码器几乎相同 确实进一步提高了0.3 pp的精度 但代价是内存消耗 11M 和FLOPs 19.5B 的增加。
图6 自我注意图的可视化。见文本。
表3 SATRN-small在不同位置编码 PE 方案和下采样率下的表现。
为了更广泛地了解由于自我注意层而产生的计算效率 我们对SAR Li等人 2019 和SATRN进行了不同层数的变化。原始SAR包含ResNet34作为编码器 SAR-middle 我们考虑用ResNet18 SAR-small 和ResNet101 SAR-big 来代替编码器。我们的基础结构SATRN被认为是SATRN-big。我们考虑将所有层的通道尺寸从512减少到256 SATRN-middle 并进一步减少编码器层数Ne 9 解码器层数Nd 3 SATRN-small 。
图5比较了SAR Li等人 2019 和SATRN的准确度-成本权衡。我们更清楚地观察到 涉及自我注意层的SATRN设计比SAR方法提供了更好的精度-效率权衡。我们得出结论 对于解决STR问题 SATRN设计是一个有利的选择。
我们对编码器中的二维自我注意层如何提取信息特征进行了定性分析。图6显示了人类定义的字符兴趣区 ROI 以及相应的深度为n的自我注意热图 SA 该热图是通过自我注意权重将字符兴趣区从最后一层传播到下面的n层而产生的。它显示了在n处用于识别指定字符的支持信号关系。
我们观察到 对于字符 “M” 最后一个自我注意层确定了与下一个字符 A 的依赖关系。深度为2的SA已经将支持信号传播到全局 利用了自我注意中的长距离连接。通过允许在少量的层内进行长距离计算 SATRN实现了良好的性能 同时消除了因多次积累局部信息而产生的冗余 卷积编码器 。
图7 按光谱比的范围划分的三组例子。 〖r ‖α‖〗_1/‖β‖_1
拟议模块的消融研究SATRN编码器是由许多设计选择来使Transformer适应STR任务的。我们在下面的部分报告了对这些因素的消融研究 并通过实验分析了替代的设计选择。此后使用的默认模型是SATRN-small。
图8 根据参数和FLOPs的数量 前馈块的性能比较。ata点上面的数字表示编码层的数量。
自适应二维位置编码 A2DPE 。这种新的位置编码对于动态地适应整体文本对齐 水平、对角线或垂直 所产生的固有长宽比是必要的。作为备选方案 我们考虑完全不做任何位置编码 “无” Zhang等人 2019 Wang等人 2017 在扁平化的特征图上使用一维位置编码 “1DFlatten” 使用高度和宽度位置编码的连接 “2D-Concat” Parmar等人 2018 以及我们提议的A2DPE。结果见表3a。我们观察到 A2DPE在所考虑的四个选项中提供了最好的准确性。
我们将来自三组具有不同预测长宽比的随机输入图像可视化 作为A2DPE的副产品。图7显示了根据长宽比不同的例子 ‖α‖_1/‖β‖_1大部分是水平样本 而高长宽比组包含大部分垂直样本。通过动态调整网格间距 A2DPE减少了其他模块的表示负担 导致性能提升。
我们将Transformer编码器 Vaswani等人 2017 中的点式前馈层替换为我们新颖的局部感知前馈层 以寻求以低的额外成本提升性能。为了分析它们的效果 我们考虑了图4中描述的两种选择 每种选择都有不同数量的编码器层 3、6或9 。
图8显示了由此产生的精度-性能权衡。与明智点前馈相比 天真卷积的结果是提高了精度 但大约需要四倍的参数和FLOPs。我们用深度卷积 定位感知前馈 来减轻计算成本 并在几乎相同的计算成本下获得更好的精度。
最后 我们研究了SATRN-small的二维特征图中的空间自由度对其准确性和计算成本的影响。我们通过控制沿高度和宽度维度的下采样率在使用全二维特征图的SATRN-small和使用一维特征图的同一模型之间进行插值。SATRN-small对高度和宽度都使用了1/4的下采样系数 我们考虑用1/2的系数对高度进一步下采样 直到只剩下一个高度维度 1/32高度下采样 。为了看到另一个极端 我们考虑减少下采样 宽度和高度都只下采样1/2 。
表3b显示了结果。随着特征图大小的减少 FLOPs和准确率都有持续的下降。当高度下采样率大于1/8时 性能急剧下降 超过2.9 pp 。这些结果再次强调了在整个计算过程中保持二维特征图的重要性。
表4 两个具有挑战性的文本数据集的结果 严重旋转的文本和多行文本。
更多挑战 旋转的和多行的文本不规则文本识别基准 IC15、SVTP和CT80 试图将STR研究的重点转向该领域尚未解决的更困难的挑战。虽然这些数据集确实包含了更难的形状的文本 但要分析形状扭曲的类型和数量的影响并不容易。因此 我们准备了新的合成测试集 从IC13转化而来 纯粹由单一类型和程度的扰动组成。具体来说 我们对具有不同旋转程度 0◦、90◦、180◦和270◦ 的文本以及多行文本的性能进行测量。
我们与两个有代表性的基线模型FAN Cheng等人 2017 和SAR Li等人 2019 进行比较。优化和预处理细节 包括训练数据集和增量 都是统一的 以便公平比较。
大多数基于水平文本假设的STR模型不能处理严重旋转的文本。另一方面 SATRN并不依赖任何这样的归纳偏见 它识别旋转文本的能力完全取决于训练期间显示的这种情况的比例。为了从经验上验证这一点 我们用更大范围的旋转来训练模型。Uniform 0◦ 360◦ 。然后 输入的图像被调整为64×64的大小。表4的第二列组显示了旋转文本的实验结果。我们确认SATRN的表现优于FAN和SAR 同时对所有的旋转水平都保持了稳定的表现。
多行文本我们分析了模型对多行文本的识别能力 这需要在推理过程中改变行的功能。我们使用SynthText和MJSynth合成了多行文本来训练模型。为了评估 我们利用IC13中的场景图像手动裁剪的多行文本。表4的最后一栏显示了结果。SATRN确实比基线表现得更好 显示了它在推理过程中进行长距离跳跃以改变行的能力。
图9显示了SATRN解码器检索2D特征的注意图。SATRN区分了两条线 并成功地追踪到了下一条线。结果表明 SATRN能使二维注意力从当前区域过渡到图像上的非相邻区域。
图9 多行例子上的二维注意力图。二维注意力跟随第一行文字 然后移动到下一行。
结论场景文本识别 STR 领域在过去几年中取得了巨大的进展。现在 模型在典型形状的文本上运行良好。我们认为STR剩下的重要挑战是对任意形状的文本的识别。为了解决这个问题 我们提出了自我注意的文本识别网络 SATRN 。通过自我注意层允许长距离的依赖 SATRN能够按顺序定位下一个字符 即使它们不遵循规范的排列。我们对Transformer架构进行了一些新的修改 使其适应STR任务。我们在不规则文本识别基准上实现了新的技术水平 并有很大的提升空间 平均5.7 pp 。SATRN在我们对旋转文本和多行文本的控制实验中显示出特别好的性能 这些文本构成了未来STR的挑战。我们将开放源代码。
参考文献创作不易 喜欢的话加个关注点个赞 ❤谢谢谢谢❤



