我建议Beautifulsoup。它具有出色的解析器,可以相当优雅地处理格式错误的标记。阅读完整个树后,就可以输出结果了。
from bs4 import BeautifulSouptree = BeautifulSoup(bad_html)good_html = tree.prettify()
我已经使用过很多次了,它的确很神奇。如果您只是从bad-html中提取数据,那么BeautifulSoup在提取数据时确实很出色。

我建议Beautifulsoup。它具有出色的解析器,可以相当优雅地处理格式错误的标记。阅读完整个树后,就可以输出结果了。
from bs4 import BeautifulSouptree = BeautifulSoup(bad_html)good_html = tree.prettify()
我已经使用过很多次了,它的确很神奇。如果您只是从bad-html中提取数据,那么BeautifulSoup在提取数据时确实很出色。