栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

用python把pdf文件转换为word文件 | pdf2docx 安装 + 快速使用

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

用python把pdf文件转换为word文件 | pdf2docx 安装 + 快速使用

一、pdf2docx介绍
  • pdf2docx是一个 Python 库,用于从 PDF 中提取数据,PyMuPDF使用规则解析布局,并使用python-docx.
二、pdf2docx的安装
  • 为什么要讲这个安装呢?其实很大部分原因是因为自己弄了好几天没安装下来,今天突然被导师指点了一下开窍了,所以特此在这里总结一下这个库的安装。
  • 常规的安装:pip install pdf2docx
  • 不常规的安装:为什么要说不常规呢,其实主要还是跟自己的py解释器有很大的关系了。比如说我的py解释器版本为3.6.5,在安装pdf2docx这个库的时候出现了以下报错

这个报错是因为在安装pdf2docx这个库的时候他会捆绑下载安装其他的一些库,然后安装到PyMuPDF这个库的时候它会自动下载该模块的最高版本,可是在这个库的最高版本里面并没有支持py3.6.5版本解释器的安装包,所以就会在这里出现报错。要解决该报错只需要去到https://pypi.org/project/PyMuPDF/1.19.3/#files这个网站下载对应电脑系统的.whl版本(其实也就是降版本下载)并且进行本地安装,再安装pdf2docx这个库即可。

三、pdf2docx快速使用
  • 方法一:
from pdf2docx import Converter

pdf_file = './xxxx.pdf'
docx_file = './xxxx.docx'
cv = Converter(pdf_file)
cv.convert(docx_file, start=0, end=5)
cv.close()

其中的pdf_file是pdf文件,docx_file是word文件,start是pdf转换的起始页,end是结束页。这里如果不传start和end的话默认就是从第一页转换到最后一页。也可以通过pages方法确定转换页数,方法为:cv.convert(docx_file, pages=[1, 3, 5])

  • 效果展示:

    效果还是可以的

  • 方法二:

直接使用命令行进行全部页面转换,代码如下:

$ pdf2docx convert test.pdf test.docx

同样的也可以使用start方法和end方法。

有关于pdf2docx的详细学习网站(点我)

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/839780.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号