栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python读取pdf文档_python截取pdf的一部分?

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python读取pdf文档_python截取pdf的一部分?

前提:提取文本内容的文件必须是应用服务生成PDF文件,而非扫描的pdf文档,当前pdfplumber的版本为0.5.28

前面是利用page.extract_text()直接提取PDF文件中的文本内容,但有的时候这种方式并不能满足我们的需求,因为有的PDF文件里面的内容排版并不是很规整,排版比较杂乱,这个时候我们利用正则表达式进行文本内容提取就会出现各种奇怪的问题,如果执意要使用这种方式来提取文本内容,那么我们需要考虑的兼容情况就比较多了。

这个时候,我们就可以考虑采用page的extract_tables()方法,先提取PDF文件页面的表格,进行具体细分后再来提取某一个表格里面的具体内容,这样在提取PDF文件指定范围内的文本内容时就会方便很多。

1.安装ipykernel

在做上述操作之前,我们需要先安装一下依赖包 ipykernel,这个主要是用于可视化调试:

poetry add ipykernel

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/783565.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号