XHTML很简单,请使用lxml。
from lxml import etreefrom StringIO import StringIOetree.parse(StringIO(html), etree.HTMLParser(recover=False))
HTML更加困难,因为传统上对HTML人群的验证没有太大兴趣(通过验证器yikes运行StackOverflow本身)。最简单的解决方案是执行诸如nsgmls或OpenJade之类的外部应用程序,然后解析其输出。

XHTML很简单,请使用lxml。
from lxml import etreefrom StringIO import StringIOetree.parse(StringIO(html), etree.HTMLParser(recover=False))
HTML更加困难,因为传统上对HTML人群的验证没有太大兴趣(通过验证器yikes运行StackOverflow本身)。最简单的解决方案是执行诸如nsgmls或OpenJade之类的外部应用程序,然后解析其输出。