栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python 读取PDF文件为文本字符并转换为音频

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python 读取PDF文件为文本字符并转换为音频

【】

设计思路:首先通过PyPDF2非标准库提供的接口函数将PDF文件中的文本提取出来,然后,再使用pyttsx3非标准库将文本转换为音频文件。

使用pip的方式安装两个非标准库PyPDF2、pyttsx3。

pip install PyPDF2 -i https://pypi.tuna.tsinghua.edu.cn/simple/

pip install pyttsx3 -i https://pypi.tuna.tsinghua.edu.cn/simple/

将这两个需要使用到的非标准库导入到当前代码块中。

import pyttsx3 as tsx
import PyPDF2 as pdf

编写PDF文件读取函数并且返回text文本字符串。

def read_pdf_to_txt(pdf_file):
    '''
    读取PDF文件返回text文本
    :param pdf_file: PDF文件路径
    :return:
    '''
    reader = pdf.PdfFileReader(open(pdf_file, 'rb'))
    texts = ''
    for page_num in range(reader.numPages):
        text = reader.getPage(page_num).extractText()
        text = text.strip().replace('n', ' ')
        texts = texts + text
    return texts


def to_video(text):
    '''
    文本转换为音频函数
    :param text: 文本字符串
    :return:
    '''
    sp = tsx.init()
    sp.save_to_file(text, './vi.mp3')
    sp.runAndWait()
    sp.stop()

调用to_video函数完成音频文件的转换。

to_video(text=read_pdf_to_txt('./vi.pdf'))

【往期精彩】

python 获取最新房价信息-以北京房价为例

办公自动化:Image图片转换成PDF文档存储...

python做一个微型美颜图片处理器,十行代码即可完成...

用python做一个文本翻译器,自动将中文翻译成英文,超方便的!

小王,给这2000个客户发一下节日祝福的邮件...

python 一行命令开启网络间的文件共享...

PyQt5 批量删除 Excel 重复数据,多个文件、自定义重复项一键删除...

再见XShell,这款国人开源的终端命令行工具更nice!

python 表情包下载器,轻松下载上万个表情包、斗图不用愁...

Python 自动清理电脑垃圾文件,一键启动即可...

有了jmespath,处理python中的json数据就变成了一种享受...

解锁一个新技能,如何在Python代码中使用表情包...

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/822933.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号