栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

通用文档智能预训练模型LayoutLM及其应用

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

通用文档智能预训练模型LayoutLM及其应用

通用文档智能预训练模型LayoutLM及其应用

智能文档
分析表单和文档
创建智能搜索索引
自动化业务工作流程

图解(从你的所有内容中发现潜在的见解)

现实世界中的文档理解

图解(视觉效果丰富的文档)

文档理解任务


相关工作
文本和视觉信息的浅融合
结合预先训练的NLP或CV模型的输出
带标记样本的监督学习
文本和视觉信息的深度融合
对端到端文本和视觉信息进行预训练
用于预训练的大规模未标记数据集
一些贴有标签的样品进行微调
LayoutLM
为何将文本和布局联合训练
现有的研究主要集中在单模态信息或将语境文本嵌入与空间信息简单结合而不进行交互

文档在布局中的局部不变性
词语的相对位置与其语义表征高度相关
局部不变性
键-值对的布局
左右或自上而下的
表布局
网格/表格
标签数据不足和昂贵

建模目标
联合建模文本和布局信息:上下文文本嵌入+上下文空间信息

对未标记数据进行预训练,以利用局部不变性,更好地将布局信息与语义表示对齐。

LayoutLMv1 -> LayoutLMv2 -> LayoutXLM
Image

Layout

建模过程图

对layout进行自监督学习
带有掩码机制的的视觉语言模型(下图)

文档图片分类

预训练数据

图解(IIT-CDIP Test Collection 1.0上1100万的文档图片)

下游任务
格式解析
票据的解析
文档图像分类
形式理解


图解(实验结果)

票据解析

图解(实验结果)

文档图像分类

图解(实验结果)

LayoutLMv1 -> LayoutLMv2
Layout

LayoutMv2框架图

预训练模型
带掩码的视觉语言模型
Text-Image匹配
Text-Image对齐

在一些下游任务的结果

图解(语义实体识别的结果)

图解(文档图像分类的结果)

图解(文档VQA结果)

LayoutLMv2 -> LayoutXLM

框架图

预训练语言的分布
图解(30M文档的图片用来预训练LayoutXLM)

XFUND基准
8种语言,英语、汉语、日语、西班牙语、法语、意大利语、德语、葡萄牙语

每种语言有199个文档图像(没有重复模板)训练149个,测试50个。标签、头、键、值、其他


图解(特定语言的微调结果)


图解(zero-shot transfer 实验结果)

图解(多任务学习实验结果)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/725202.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号