您可以使用称为Jericho Html解析器的HTML解析器。
您可以从这里下载-http://jericho.htmlparser.net/docs/index.html
Jericho HTML
Parser是一个Java库,允许对HTML文档的各个部分(包括服务器端标签)进行分析和操作,同时逐字再现任何无法识别或无效的HTML。它还提供了高级HTML表单操作功能。
格式错误的HTML的存在不会干扰解析

您可以使用称为Jericho Html解析器的HTML解析器。
您可以从这里下载-http://jericho.htmlparser.net/docs/index.html
Jericho HTML
Parser是一个Java库,允许对HTML文档的各个部分(包括服务器端标签)进行分析和操作,同时逐字再现任何无法识别或无效的HTML。它还提供了高级HTML表单操作功能。
格式错误的HTML的存在不会干扰解析