我成功使用了
tidy命令行实用程序。在Linux上,我使用迅速安装了它
apt-get install tidy。然后命令:
tidy -q -asxml --numeric-entities yes source.html >file.xml
给了一个xml文件,我可以使用xslt处理器进行处理。但是我需要正确设置xhtml1 dtds。
这是他们的主页:html-tidy.org和旧版页面:HTMLTidy

我成功使用了
tidy命令行实用程序。在Linux上,我使用迅速安装了它
apt-get install tidy。然后命令:
tidy -q -asxml --numeric-entities yes source.html >file.xml
给了一个xml文件,我可以使用xslt处理器进行处理。但是我需要正确设置xhtml1 dtds。
这是他们的主页:html-tidy.org和旧版页面:HTMLTidy