ET.findall()vs
BS4.find_all():
findall()
默认情况下, ElementTree并非递归 __ 。它只会 找到 所提供节点的 直接子代* 。因此,在您的情况下,它仅在根元素正下方搜索图像节点。- 按照下面的mzjn的注释,在
match
参数(标记或路径)之前加上前缀".//"
将 在树中的任何位置* 搜索该节点,因为它支持XPath。
- 按照下面的mzjn的注释,在
- BeautifulSoup的
find_all()
搜索所有后代 。因此,它会在树中的任何地方寻找“ imagedata”节点。 但是,
ElementTree.iter()
会 搜索所有后代 。使用docs中的“使用命名空间”示例:>>> for char in root.iter('{http://characters.example.com}character'):… print(‘ |–>’, char.text)
…
|–> Lancelot
|–> Archie Leach
|–> Sir Robin
|–> Gunther
|–> Commander Clement可悲的是,
ET.iterfind()
它使用命名空间作为dict(例如ET.findall),也 不会搜索后代 , 而是 默认情况下 仅引导子对象 * 。就像ET.findall。除了如何''
使用名称空间处理标记中的空字符串,一个返回列表,另一个返回迭代器,我不能说ET.findall
and之间存在有意义的区别ET.iterfind
。- *如前所述
ET.findall()
,前缀".//"
使它搜索整个树( 与任何节点匹配 )。
- *如前所述
当将名称空间与ET一起使用时,仍然需要带有标签的 名称空间名称 。结果行应为:
namespace = {'v': "urn:schemas-microsoft-com:vml"}results = ET.fromstring(xml).findall("v:imagedata", namespace) # note the 'v:'另外,
'v'不必是
'v',您可以根据需要将其更改为更有意义的名称:
namespace = {'image': "urn:schemas-microsoft-com:vml"}results = ET.fromstring(xml).findall("image:imagedata", namespace)当然,如果它们不是根的直接子代,那么仍然不一定能为您提供所有imagedata元素。
为此,您需要创建一个递归函数来为您执行此操作。请注意,而答案不递归搜索,你很可能会击中Python的递归限制,如果后代深度过......
深 。
要获取树中任何位置的所有imagedata元素,请使用
".//"前缀:
results = ET.fromstring(xml).findall(".//v:imagedata", namespace)


