如何使用docx中的python-docx识别分页符

面试问答更新时间：2026-05-21 19:43:57 发布时间：1659天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

硬分页符将作为

<w:br>

元素出现在run元素（

<w:r>

）中，如下所示：

<w:p>  <w:r>    <w:t>some text</w:t>    <w:br w:type="page"/>  </w:r></w:p>

因此，一种方法是将所有这些出现替换为独特的文本字符串，例如“ {{foobar}}”。

的实现将是这样的：

from lxml import etreefrom docx import nsprefixespage_br_elements = document.xpath(    "//w:p/w:r/w:br[@w:type='page']", namespaces={'w': nsprefixes['w']})for br in page_br_elements:    t = etree.Element('w:t', nsmap={'w': nsprefixes['w']})    t.text = '{{foobar}}'    br.addprevious(t)    parent = br.getparent()    parent.remove(br)

我没有时间进行测试，因此您可能会遇到一些缺失的导入或其他内容，但是所需的一切都应该已经在docx模块中。其余的是

lxml

对_Element的方法调用。

让我知道您的情况，如有需要，我可以进行调整。

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/407412.html

上一篇导入numpy和Scipy软件包的模块/子软件包的差异

下一篇 Python：使用RegEx并考虑首字母缩写词将驼峰式大小写转换为以空格分隔的空间

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们