栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从一组PDF文件中提取表格内容

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从一组PDF文件中提取表格内容

  1. 最初的PDF格式(已有20多年的历史)从未打算用作可提取的,有意义的结构化数据的宿主。

  2. 其目的是为文档中的文本,图像和图表提供可靠的视觉表示-一种数字纸(也可以通过打印将其可靠地转换为真实纸)。仅在其开发的后期,才添加了更多功能,这些功能应有助于再次提取数据(google为Tagged PDF)。

有关从PDF抓取表格时出现的一些问题示例,请参阅本文:

为什么为文档更新美元如此困难

  1. 与我的观点“ 1”相反。上面,现在我这样说:对于一个惊人的工具系列,从PDF中提取表格数据(除非它们是扫描的页面),每个星期都会变得越来越好,
    所以:去寻找Tabula。如果有任何工具可以满足您的需求,那么Tabula可能是最适合的工作!

更新资料
我最近创建了一个ASCiinema截屏视频,演示了如何使用Tabula命令行界面从PDF中将大表提取为CSV:

(单击上面的图像查看它的运行。如果它运行太快而无法阅读所有文本,请使用“暂停”按钮(||-symbol)。)



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639827.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号