栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 系统运维 > 运维 > Linux

命令行/Python使用pdf2htmlEX将PDF转HTML

Linux 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

命令行/Python使用pdf2htmlEX将PDF转HTML

我们使用pdf2htmlEX这个库将PDF转为HTML,并通过命令行、python控制它

文章目录
  • pdf2htmlEX相关资料
  • Mac/docker安装
  • 命令行PDF转HTML
  • Python PDF转HTML

pdf2htmlEX相关资料

pdf2htmlEX Github 主页:https://github.com/coolwanglu/pdf2htmlEX

相关论文:
Wang, Lu, and Wanmin Liu. “Online publishing via pdf2htmlEX.” TUGboat 34.3 (2013): 313-324.

Mac/docker安装

Mac直接使用:brew install pdf2htmlEX即可

docker安装,使用:

docker search pdf2htmlEX

可以看到能使用的docker image,我们选择下载最多star的那个docker:

NAME                                      DESCRIPTION                                     STARS     OFFICIAL   AUTOMATED
bwits/pdf2htmlex                          Smallest pdf2htmlEX container and easiest wa…   27                   [OK]
bwits/pdf2htmlex-alpine                   pdf2htmlEX in alpine                            15                   [OK]
klokoy/pdf2htmlex                                                                         7                    [OK]

这里我们使用命令:

docker pull bwits/pdf2htmlex
命令行PDF转HTML

首先运行:

alias pdf2htmlEX='docker run -ti --rm -v `pwd`:/pdf bwits/pdf2htmlex pdf2htmlEX'

然后使用命令pdf2htmlEX 测试的pdf文件.pdf即可生成目标HTML文件:

wget http://www.africau.edu/images/default/sample.pdf
pdf2htmlEX sample.pdf

更多用法请参考:https://github.com/coolwanglu/pdf2htmlEX/wiki/Quick-Start

Python PDF转HTML

代码也很简单:

def convert_pdf_to_html(filename):
    import subprocess
    subprocess.call("docker run --rm -v `pwd`:/pdf bwits/pdf2htmlex pdf2htmlEX {}".format(filename), shell=True)


if __name__ == '__main__':
    convert_pdf_to_html("sample.pdf") # 这里是文件的名称传递进去,如果代码与文件不是一个路径,需要用xx/xx/sample.pdf的路径

其中:

运行linux命令可以参考:https://linuxhint.com/execute_shell_python_subprocess_run_method/

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/840186.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号