栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫框架scrapy--3pipelines通道的使用

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫框架scrapy--3pipelines通道的使用

在pipelines通道中可以对不同来源的数据进行处理和保存,方法如下:

1、在settings中找到如下代码段并进行修改

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
#取消下面注释开启PIPELIN通道,
#ITEM_PIPELINES = {
#数字300代表优先级,数字越小越先调用
#    'myFistScrapy.pipelines.MyfistscrapyPipeline': 300,
#可以自定义修改MyfistscrapyPipeline类,实现对不同网站的处理,注意类的函数名不能改
#    'myFistScrapy.pipelines.MyfistscrapyPipeline_my': 200,
#}

2、修改 pipelines.py

class MyfistscrapyPipeline:
    def process_item(self, item, spider):
        '''
        使用spider.name属性判断来源于那个爬虫,以便于对不同爬虫进行不同处理

         if spider.name == 'baidu(项目名)'

        '''
        return item



'''
------自定义修改类名-------
class MyfistscrapyPipeline_my:#类名要与settings.py文件中相对应
    def process_item(self, item, spider):#类名可以改,函数名不能改
        if spider.name == 'baidu(项目名':
            #进行数据处理和保存
            pass
        return item  #返回值不能省略,负责后续处理函数收不到数据
  
  
'''

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/269432.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号