scrapy engine(引擎):
负责爬虫文件,管道,下载器,调度器中间的信号传递
scheduler(调度器):
接收引擎的request请求,变成队列,之后交给引擎
downloader(下载器):
负责接收引擎数据,然后开始去互联网请求内容,返回response数据给引擎
pipeline(管道):
负责接收引擎传来的数据,按照要求做持久化存储
spider(爬虫文件):
用于起始连接的发送请求,同时可以对网上下载的数据进行解析,如果需要通过引擎传递给管道做存储
整个工作流程:
引擎先获取爬虫文件的起始url连接,传递给调度器,由调度器进行安排顺序(同时去除重复连接),之后便让引擎给下载器,引擎给下载器的需要过下载中间件的手,该做代理做代理,该换请求头换请求头,下载器拿到包装好的需要请求的东西,向互联网进行请求,获取下载来的数据(response)给下载中间件,下载中间件过一手让引擎给爬虫文件,爬虫文件开始解析,如果还需要请求的,再重复上面的步骤,需要存储的,通过item给管道,管道开始存储



