scrapy 管道默认有四个函数,
也就是说你所有的管道函数都要围绕或者写到这四个函数中
如果自定义一个函数,那么管道类是不会去调用并且执行这个函数的
一下就是四个函数:
process_item ( self , item , spider ):
为每个项目管道组件调用此方法。
item是一个item 对象,请参阅 支持所有项目类型。
process_item()必须要么:返回一个项目对象,返回一个Deferred或引发 DropItem异常。
丢弃的项目不再由进一步的管道组件处理。
参数:
item ( item object ) – 抓取的项目
spider ( Spiderobject) – 抓取物品的蜘蛛
此外,它还可以实现以下方法:
open_spider(self, spider):
这个方法在蜘蛛打开时被调用。
参数:
spider ( Spiderobject) – 打开的蜘蛛
close_spider(self, spider):
当蜘蛛关闭时调用此方法。
参数:
spider ( Spiderobject) – 关闭的蜘蛛
from_crawler ( cls , crawler ):
如果存在,则调用此类方法以从Crawler. 它必须返回管道的新实例。Crawler 对象提供对所有 Scrapy 核心组件的访问,
如设置和信号;这是管道访问它们并将其功能挂钩到 Scrapy 的一种方式。
参数:
crawler ( Crawlerobject) – 使用这个管道的爬虫



