一、环境配置
1.下载安装python3
为什么使用pyhton3,理由如下:
python2以上只维护到2020年,我猜,感觉快要过气了。
没有恶心的编码问题,并且更多工具选择pyhton3,新的工具才是生产力。
本文都用python3来写。如果你是pyhton2,尝试一下pyhton3,相信你会有不一样的体验。
注意选择适合自己电脑的版本。
2.安装requests和lxml。
为啥用pip,因为我们在安装python3的时候,选择了同时安装pip等一系列的包,不想pyhton2,还要一个一个去安装。
pip install requests
pip install lxml
由于我这里已经安装过了,所以显示已经有了。安装的时候请耐心等待哦。
3.安装eclipse或者其他你喜欢的编辑器。
如果不太熟的可以看一下我另一篇python+Eclipse+pydev环境搭建
如果有人恰好跟我一样使用eclipse,那注意配置一下python路径。
windows——>preferences——>General——>Pydev——>Pyhton Interpreter
这里首选python3.6哦。
二、轻松爬取百度网页。
#-*- coding:utf-8 -*- import requests url = 'https://www.baidu.com/' data = requests.get(url) data.encoding='utf-8' print(data.text)
输出结果:
百度一下,你就知道 新闻 hao123 地图 视频 贴吧 更多产品关于百度 about Baidu
©2017 Baidu 使用百度前必读 意见反馈 京ICP证030173号
四行代码,我们就可以把百度首页的内容爬取下来:
1.导入requests库
2.下载百度首页内容
3.更改编码方式
4.打印内容
下一节,爬取豆瓣电影详情信息requests+xpath
链接http://blog.csdn.net/MTbaby/article/details/79165890



