栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从Word文档中提取标题文本

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从Word文档中提取标题文本

根本的挑战是确定标题段落。对于读者而言,没有什么能阻止作者将“常规”段落格式化为看起来(并充当)标题的方式。

但是,对于作者来说,可靠地使用样式创建标题并不罕见,因为这样做可以将这些标题自动编译到目录中。

在这种情况下,您可以遍历段落,然后选择标题样式之一的段落。

def iter_headings(paragraphs):    for paragraph in paragraphs:        if paragraph.style.name.startswith('Heading'): yield paragraphfor heading in iter_headings(document.paragraphs):    print heading.text

如果标题级别保留默认值(例如“标题1”,“标题2”等),则可以从样式的完整名称中进行解析。

如果作者重命名了标题样式,则可能需要对此进行调整。

有更复杂的方法更可靠(就样式名称而言是独立的),但是这些方法不支持API,因此您需要深入研究内部代码并直接与我期望的某些样式XML进行交互。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/611492.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号