栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

Scrapy-不断获取URL以从数据库中进行爬网

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Scrapy-不断获取URL以从数据库中进行爬网

我个人建议您每次必须爬网时都启动一个新的蜘蛛,但是如果您想使该过程继续下去,我建议您使用

spider_idle
信号:

@classmethoddef from_crawler(cls, crawler, *args, **kwargs):    spider = super(MySpider, cls).from_crawler(crawler, *args, **kwargs)    crawler.signals.connect(spider.spider_closed, signals.spider_closed)    crawler.signals.connect(spider.spider_idle, signals.spider_idle)    return spider...def spider_idle(self, spider):    # read database again and send new requests    # check that sending new requests here is different    self.crawler.engine.crawl(         Request(  new_url,  callback=self.parse),         spider     )

在这里,您将在蜘蛛实际上关闭之前发送新请求。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/662375.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号