栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何使用Python获取两个PDF文件的差异?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何使用Python获取两个PDF文件的差异?

“差异”是什么意思?PDF文本中的差异或某些布局更改(例如,调整了嵌入式图形的大小)。第一个很容易检测,第二个几乎无法获取(PDF是一种非常复杂的文件格式,提供了无穷无尽的文件格式化功能)。

如果要获取文本差异,只需在两个PDF上运行pdf to text实用程序,然后使用Python内置的diff库获取转换后的文本的差异。

这个问题涉及python中pdf到文本的转换:用于将PDF转换为text的Python模块。

此方法的可靠性取决于您使用的PDF生成器。如果您使用Adobe Acrobat和某些基于Ghostscript的PDF-
Creator从SAME单词文档中创建两个PDF,尽管源文档是相同的,但您仍可能会得到差异。

这是因为有很多方法可以将源文档的信息编码为PDF,并且每个转换器都使用不同的方法。通常,PDF到文本转换器无法找出正确的文本流,尤其是在复杂的布局或表格中。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/668230.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号