栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

使用Python读取pdf文件

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Python读取pdf文件

学习python,不用再为pdf无法转换而烦恼~~~

下面我们介绍python读取pdf文件(主要是针对文字部分)

1、打开环境

2、安装pdfminer3k包

可以使用jupyter notebook进行安装,如下图所示:

安装成功,大功告成第一步。

3、导入相关的包:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

如图:

4、定义一个读取pdf文档的函数:

 def read_from_pdf(file_path):
    """
    读取pdf文件
    """
    with open(file_path,'rb') as file:
        resource_manager = PDFResourceManager()
        return_str = StringIO()
        lap_params = LAParams()
        device = TextConverter(resource_manager,return_str,laparams=lap_params)
        process_pdf(resource_manager,device,file)
        device.close()
        content = return_str.getvalue()
        return_str.close()
        return re.sub('s+','',content) 

 5、使用定义的函数进行测试实验:

read_from_pdf('葡萄酒数据挖掘.pdf')

根据你自己的pdf文件和具体情况进行实验,路径可以是绝对路径和相对路径,任意实验。

实验效果还不错,学习起来吧~~~ 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/349763.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号