python爬虫知识学习分享

着眼于未来，我们来看看python的招聘信息

看起来还不错！

scrapy startproject liepin

我用的Scrapy，Scrapy是Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。使用了 Twisted 异步网络库来处理网络通讯。整体架构：

Scrapy的安装，自行百度吧！学习它的使用，最好方法就是看文档，中文文档点这里
成功创建一个项目以后，它自动生成以下的目录：

├── scrapy.cfg
└── liepin
  ├── __init__.py
  ├── items.py
  ├── pipelines.py
  ├── settings.py
  └── spiders
    └── __init__.py

这个目录的意思是：

scrapy.cfg: 全局配置文件
liepin/: 项目python模块
liepin/items.py: 项目items文件，定义爬取的数据保存结构
liepin/pipelines.py: 项目管道文件，对爬取来的数据进行清洗、筛选、保存等操作
liepin/settings.py: 项目配置文件
liepin/spiders: 放置spider的目录

接下来，写items.py,也就是所有我们需要的信息

完成以上工作，进入到最关键的部分，爬虫的编写。

这段代码的意思就是，声明每个Scrapy项目都应该有的name，allowed_domains，start_urls。
由于今天我们要爬取多个页面，所以声明了一个urls的列表，然后调用append函数，把所有用到的url添加到列表里。
最后写parse函数，每个scrapy默认的处理response函数都是它，当然你也可以，自己指定。官方文档里都有。

这段代码的意思是，把response交给Selector处理，它的xpath方法用的就是XPath，来定位元素位置。
爬取到目标内容，保存到item当中。
最后我们把返回的Unicode编码转化成utf-8以便更好的显示中文，这时候就需要编写pipelines.py，像这样：

运行它，结果出来了！

python爬虫知识学习分享

Python相关栏目本月热门文章