栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 前沿技术 > 大数据 > 大数据系统

课程笔记5:Scrapy框架——Item Pipeline的用法

课程笔记5:Scrapy框架——Item Pipeline的用法

Item Pipeline(项目管道)。Spider解析完Response就会产生Item,Item就会被Engine传递到Item Pipeline,被定义的Item Pipeline组件就会顺次被调用,完成一连串的处理过程:

清洗HTML数据 验证爬取数据,检查爬取字段 查重并丢弃重复内容 将爬取结果存储到数据库中 核心方法

必须实现的方法:

process_item(item, spider)

可选实现的方法:

open_spider(spider) close_spider(spider) from_crawler(cls, crawler)


process_item(item, spider)

被定义的Item Pipeline会默认调用这个方法对Item进行处理,比如进行数据处理或者将数据写入数据库等操作。

参数:

item:Item对象,即被处理的Item spider:Spider对象,即生成该Item的Spider

返回值:Item对象/抛出DropItem异常

不同返回值的效果:

Item对象——接着调用低优先级的Item Pipeline的process_item方法,直到所有方法被调用完毕 抛出DropItem异常——Item会被丢弃,不再进行处理


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/710209.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号