栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何从Python中填写的表单中提取PDF字段?

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何从Python中填写的表单中提取PDF字段?

您应该能够使用pdfminer做到这一点,但这将需要深入研究pdfminer的内部结构以及有关pdf格式的知识(当然是wrt形式,但也需要了解pdf的内部结构,例如“字典”和“间接对象”)

该示例可能会为您提供帮助(我认为它仅适用于简单情况,没有嵌套字段等)。

import sysfrom pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFdocumentfrom pdfminer.pdftypes import resolve1filename = sys.argv[1]fp = open(filename, 'rb')parser = PDFParser(fp)doc = PDFdocument(parser)fields = resolve1(doc.catalog['AcroForm'])['Fields']for i in fields:    field = resolve1(i)    name, value = field.get('T'), field.get('V')    print '{0}: {1}'.format(name, value)

编辑:忘记提及:如果您需要提供密码,请将其传递给

doc.initialize()



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/633750.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号