看一看Boilerpipe。它旨在完全满足您的需求,消除网页主要文本内容周围多余的“混乱”(样板,模板)。
有几种方法可以将HTML馈入Boilerpipe并提取HTML。
您可以使用URL:
ArticleExtractor.INSTANCE.getText(url);
您可以使用String:
ArticleExtractor.INSTANCE.getText(myHtml);
还有一些使用Reader的选项,这会打开很多选项。

看一看Boilerpipe。它旨在完全满足您的需求,消除网页主要文本内容周围多余的“混乱”(样板,模板)。
有几种方法可以将HTML馈入Boilerpipe并提取HTML。
您可以使用URL:
ArticleExtractor.INSTANCE.getText(url);
您可以使用String:
ArticleExtractor.INSTANCE.getText(myHtml);
还有一些使用Reader的选项,这会打开很多选项。