栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

如何使用Python XML findall查找“'

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

如何使用Python XML findall查找“'

ET.findall()
vs
BS4.find_all()

  • findall()
    默认情况下, ElementTree并非递归 __ 。它只会 找到 所提供节点的 直接子代* 。因此,在您的情况下,它仅在根元素正下方搜索图像节点。
    • 按照下面的mzjn的注释,在
      match
      参数(标记或路径)之前加上前缀
      ".//"
      在树中的任何位置* 搜索该节点,因为它支持XPath。
  • BeautifulSoup的
    find_all()
    搜索所有后代 。因此,它会在树中的任何地方寻找“ imagedata”节点。
  • 但是,

    ElementTree.iter()
    搜索所有后代 。使用docs中的“使用命名空间”示例:

    >>> for char in root.iter('{http://characters.example.com}character'):

    … print(‘ |–>’, char.text)

    |–> Lancelot
    |–> Archie Leach
    |–> Sir Robin
    |–> Gunther
    |–> Commander Clement

  • 可悲的是,

    ET.iterfind()
    它使用命名空间作为dict(例如ET.findall),也 不会搜索后代而是 默认情况下 仅引导子对象 * 。就像ET.findall。除了如何
    ''
    使用名称空间处理标记中的空字符串,一个返回列表,另一个返回迭代器,我不能说
    ET.findall
    and之间存在有意义的区别
    ET.iterfind

    • *如前所述
      ET.findall()
      ,前缀
      ".//"
      使它搜索整个树( 与任何节点匹配 )。

当将名称空间与ET一起使用时,仍然需要带有标签的 名称空间名称 。结果行应为:

namespace = {'v': "urn:schemas-microsoft-com:vml"}results = ET.fromstring(xml).findall("v:imagedata", namespace)  # note the 'v:'

另外,

'v'
不必是
'v'
,您可以根据需要将其更改为更有意义的名称:

namespace = {'image': "urn:schemas-microsoft-com:vml"}results = ET.fromstring(xml).findall("image:imagedata", namespace)

当然,如果它们不是根的直接子代,那么仍然不一定能为您提供所有imagedata元素。
为此,您需要创建一个递归函数来为您执行此操作。请注意,而答案不递归搜索,你很可能会击中Python的递归限制,如果后代深度过......

要获取树中任何位置的所有imagedata元素,请使用

".//"
前缀:

results = ET.fromstring(xml).findall(".//v:imagedata", namespace)


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639844.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号