栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用htmlparser python获取标签下的html

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用htmlparser python获取标签下的html

可以使用

xml.etree.ElementTree.TreeBuilder
etree API来查找/操作
<span>
元素:

import sysfrom HTMLParser import HTMLParserfrom xml.etree import cElementTree as etreeclass linksParser(HTMLParser):  def __init__(self):      HTMLParser.__init__(self)      self.tb = etree.TreeBuilder()  def handle_starttag(self, tag, attributes):      self.tb.start(tag, dict(attributes))  def handle_endtag(self, tag):      self.tb.end(tag)  def handle_data(self, data):      self.tb.data(data)  def close(self):      HTMLParser.close(self)      return self.tb.close()parser = linksParser()parser.feed(sys.stdin.read())root = parser.close()span = root.find(".//span[@itemprop='description']")etree.ElementTree(span).write(sys.stdout)

输出量

<span itemprop="description"><h1>My First Heading</h1><p>My first <br /><br />paragraph.</p></span>

要在没有父(根)

<span>
标签的情况下进行打印:

sys.stdout.write(span.text)for child in span:    sys.stdout.write(etree.tostring(child)) # add encoding="unipre" on Python 3


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/646272.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号