使用htmlparser python获取标签下的html

面试问答更新时间：2026-06-04 06:38:58 发布时间：1637天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

可以使用

xml.etree.ElementTree.TreeBuilder

etree API来查找/操作

<span>

元素：

import sysfrom HTMLParser import HTMLParserfrom xml.etree import cElementTree as etreeclass linksParser(HTMLParser):  def __init__(self):      HTMLParser.__init__(self)      self.tb = etree.TreeBuilder()  def handle_starttag(self, tag, attributes):      self.tb.start(tag, dict(attributes))  def handle_endtag(self, tag):      self.tb.end(tag)  def handle_data(self, data):      self.tb.data(data)  def close(self):      HTMLParser.close(self)      return self.tb.close()parser = linksParser()parser.feed(sys.stdin.read())root = parser.close()span = root.find(".//span[@itemprop='description']")etree.ElementTree(span).write(sys.stdout)

输出量

<span itemprop="description"><h1>My First Heading</h1><p>My first <br /><br />paragraph.</p></span>

要在没有父（根）

<span>

标签的情况下进行打印：

sys.stdout.write(span.text)for child in span:    sys.stdout.write(etree.tostring(child)) # add encoding="unipre" on Python 3

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/646272.html

上一篇将Django与virtualenv结合使用，会出现错误ImportError：没有名为“ django.core.servers.fastcgi”的模块

下一篇升级numpy失败，并显示“权限被拒绝”错误

面试问答相关栏目本月热门文章

关于我们文章归档网站地图联系我们