正如@John
Machin所建议的,尽管错误消息似乎指向文本中的错误位置,但有问题的文件中确实包含可疑的数字实体。也许流的性质和缓冲使得难以报告准确的位置。
实际上,所有这些实体都出现在文本中:
set(['', '', '', '', '', '', '
', '', '', '', '', '�', '', '', '
', '', '', '	', '', '', '', '', ''])
大部分都不允许。看起来这个解析器非常严格,您需要找到另一个不是那么严格的解析器,或者对XML进行预处理。



