nltk
clean_html()在这方面非常擅长!
假设您已经将html存储在
html像这样的变量中
html = urllib.urlopen(address).read()
然后就用
import nltkclean_text = nltk.clean_html(html)
更新
支持
clean_html和
clean_url将被丢弃的NLTK的未来版本。请暂时使用BeautifulSoup …这很不幸。
此页面上提供了有关如何实现此目的的示例:
BeatifulSoup4
get_text仍然具有Javascript



