Beautiful Soup 是一个模块,用于从 HTML 页面中提取信息(用于这个目的时,
它比正则表达式好很多)。BeautifulSoup 模块的名称是 bs4(表示 Beautiful Soup,第 4 版)。要安装它,需要在命令行中运行 pip install
beautifulsoup4(关于安装第三方模块的指导,请查看附录 A)。虽然安装时使用的名字是 beautifulsoup4,但要导入它,就使用 import bs4。
在本章中,Beautiful Soup 的例子将解析(即分析并确定其中的一些部分)硬盘上的一个HTML 文件。在 IDLE 中打开一个新的文件编辑器窗口,输入以下代码,并
保存为 example.html。或者,从 http://nostarch.com/automatestuff/下载它。
Download my Python book from my
website.
Learn Python the easy way!
By Al Sweigart



