Python中也有此库:)
自从您提到Java以来,有一个适用于样板程序的Python包装器,可让您在python脚本中直接使用它:https : //github.com/misja/python-
boilerpipe
如果要使用纯python库,则有2个选项:
https://github.com/buriy/python-readability
和
https://github.com/grangier/python-goose
在这两者中,我更喜欢Goose,但是请注意,由于某些原因,它的最新版本有时无法提取文本(我的建议是现在使用1.0.22版)。
编辑:这是使用Goose的示例代码:
from goose import Goosefrom requests import getresponse = get('http://www.nytimes.com/2015/05/19/health/study-finds-dense-breast-tissue-isnt-always-a-high-cancer-risk.html?src=https://www.mshxw.com/skin/sinaskin/image/nopic.gif')extractor = Goose()article = extractor.extract(raw_html=response.content)text = article.cleaned_text


