在用 scrapy-redis 进行分布式采集的过程中,分析日志发现 pages/min 数量呈现规律性的波动
原因分析利用 Telnet 工具进行爬取状态的监控
在CONCURRENT_REQUESTS=16的情况下,爬虫刚启动时从 redis 队列中拉取 16 个请求,进入下载器,直到这16个请求全部下载完成后,爬虫进入空闲状态,调度器才会再次从redis队列中拉取16个请求
如果有使用代理的话,每一批请求的访问间隔则由最慢的那一次请求来决定,会拖慢整个爬虫的速度
不知道

在用 scrapy-redis 进行分布式采集的过程中,分析日志发现 pages/min 数量呈现规律性的波动
原因分析利用 Telnet 工具进行爬取状态的监控
在CONCURRENT_REQUESTS=16的情况下,爬虫刚启动时从 redis 队列中拉取 16 个请求,进入下载器,直到这16个请求全部下载完成后,爬虫进入空闲状态,调度器才会再次从redis队列中拉取16个请求
如果有使用代理的话,每一批请求的访问间隔则由最慢的那一次请求来决定,会拖慢整个爬虫的速度
不知道