如果您不关心xml中的无效字符,则可以使用XML解析器的
recover选项(请参阅使用lxml.etree.iterparse解析损坏的XML):
from lxml import etreeparser = etree.XMLParser(recover=True) # recover from bad characters.root = etree.fromstring(broken_xml, parser=parser)print etree.tostring(root)
输出量
<root><element><name>name surname</name><mail>name@name.org</mail></element></root>



