栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Python进行PDF解析-提取格式化和纯文本

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Python进行PDF解析-提取格式化和纯文本

您还可以看一下PDFMiner(或者对于旧版本的Python,请参阅PDFMiner和PDFMiner)。

PDFMiner中感兴趣的一个特殊功能是,您可以控制在提取文本部分时如何重新组合文本部分。您可以通过指定行,单词,字符等之间的间距来执行此操作。因此,也许可以通过对此进行调整来实现所需的功能(取决于文档的可变性)。PDFMiner还可以为您提供文本在页面中的位置,它可以按对象ID和其他内容提取数据。因此,挖掘PDFMiner并发挥创造力吧!

但是您的问题确实不是一个容易解决的问题,因为在PDF中,文本不是连续的,而是由许多绝对位于页面中的小字符组成的。PDF的重点是保持布局完整。它不是面向内容的,而是面向呈现的。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639287.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号