栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

按计划刮擦

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

按计划刮擦

首先值得注意的是,通常只有 一个
Twisted反应堆正在运行,并且它不可重启(如您所发现)。第二个是应该避免阻塞任务/功能(即

time.sleep(n)
),并应使用异步替代方法(例如’reactor.task.deferLater(n,…)`)代替。

要从Twisted项目中有效使用Scrapy,需要使用

scrapy.crawler.CrawlerRunner
核心API,而不是
scrapy.crawler.CrawlerProcess
。两者之间的主要区别是为您
CrawlerProcess
运行Twisted的操作
reactor
(因此很难重新启动反应堆),而后者
CrawlerRunner
依赖于开发人员来启动反应堆。这是您的代码使用以下代码的样子
CrawlerRunner

from twisted.internet import reactorfrom quotesbot.spiders.quotes import QuotesSpiderfrom scrapy.crawler import CrawlerRunnerdef run_crawl():    """    Run a spider within Twisted. once it completes,    wait 5 seconds and run another spider.    """    runner = CrawlerRunner({        'USER_AGENT': 'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)',        })    deferred = runner.crawl(QuotesSpider)    # you can use reactor.callLater or task.deferLater to schedule a function    deferred.addCallback(reactor.callLater, 5, run_crawl)    return deferredrun_crawl()reactor.run()   # you have to run the reactor yourself


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/641693.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号