1.Scrapy定义
Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架，它使用了一些高级功能来简化网页的爬取，能让我们的爬虫更加地规范、高效。

2.Scrapy内容
Scrapy内容
Scrapy Engine Scrapy 引擎，负责控制整个系统地数据流和事件地触发
Scheduler 调度器，接受 Scrapy 引擎发来的请求并将其夹取队列中，等待引擎后续需要时使用
Downloader 下载器，爬取网页内容，将爬取道德数据返回给 Spiders （爬虫）
Spider 爬虫，这部分是核心代码，用于解析、提取出需要地数据
Item Pipeline 数据管道，处理提取出的数据，主要是数据清洗、验证和数据存储
Downloader middlewares 下载器中间件，处理 Scrapy 引擎和下载器之间的请求和响应
Spider middlewares 爬虫中间件，处理爬虫输入的响应以及输出结果或新的请求

Scrapy内容
Scrapy Engine	Scrapy 引擎，负责控制整个系统地数据流和事件地触发
Scheduler	调度器，接受 Scrapy 引擎发来的请求并将其夹取队列中，等待引擎后续需要时使用
Downloader	下载器，爬取网页内容，将爬取道德数据返回给 Spiders （爬虫）
Spider	爬虫，这部分是核心代码，用于解析、提取出需要地数据
Item Pipeline	数据管道，处理提取出的数据，主要是数据清洗、验证和数据存储
Downloader middlewares	下载器中间件，处理 Scrapy 引擎和下载器之间的请求和响应
Spider middlewares	爬虫中间件，处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程
Scarpy数据流过程
1 Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面
2 Scarpy 引擎从爬虫中获取第一个网页地址，并将其作为请求放进调度器中进行调度
3 Scrapy 引擎从调度器中获取下一个网页的地址
4 调度器返回下一个网页的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取
5
爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎

6 Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取
7 爬虫处理完数据后，将提取的数据和新得请求回传给 Scrapy 引擎
8 Scrapy 将提取出的数据传给数据管道进行数据清晰等操作，同时将新得请求传递给调度器准备进行下一页的爬取
9 重复 2-8 步，直到调度器中没有新的请求，数据爬取结束

Scarpy数据流过程
1	Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面
2	Scarpy 引擎从爬虫中获取第一个网页地址，并将其作为请求放进调度器中进行调度
3	Scrapy 引擎从调度器中获取下一个网页的地址
4	调度器返回下一个网页的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取
5	爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎
6	Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取
7	爬虫处理完数据后，将提取的数据和新得请求回传给 Scrapy 引擎
8	Scrapy 将提取出的数据传给数据管道进行数据清晰等操作，同时将新得请求传递给调度器准备进行下一页的爬取
9	重复 2-8 步，直到调度器中没有新的请求，数据爬取结束

4.安装 Scrapy

打开命令行，执行下列语句就可以在自己电脑中安装 Scrapy ：

pip install scrapy -i https://pypi.doubanio.com/simple/
# 这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源，这样安装会更快

安装完成后在命令行里输入 scarpy+回车，看到类似下列的输出内容就表示安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy  [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

1.Scrapy定义 Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架，它使用了一些高级功能来简化网页的爬取，能让我们的爬虫更加地规范、高效。

Python相关栏目本月热门文章

1.Scrapy定义
Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架，它使用了一些高级功能来简化网页的爬取，能让我们的爬虫更加地规范、高效。