需要用到的模块
需要用到python的urllib和lxml模块,urllib为python的自带模块,lxml需要自行安装:
pip install lxml
简单介绍urllib和lxml的使用
我们使用urllib来爬去一个网页比如:
In [1]: import urllib
In [2]: # 爬起豆瓣首页In [3]: html = urllib.urlopen("https://www.douban.com/").read()
In [4]: # 整个html打印出来太多,这里我们就保存在文件中,再查看In [5]: of = open("db_index.html","w")
In [6]: of.write(html)
In [7]: of.close()使用lxml主要用于解析网页(这里只是简单示范),比如:
In [8]: from lxml import etree In [9]: html = u'我是标题哈哈哈哈


