栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

创建分布式爬虫的步骤

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

创建分布式爬虫的步骤

1.在服务器上安装scrapyd :pip3 install scrapyd 

2.从usr/local/lib/python3.5/dist-package/scrapyd拷贝出defalt_scrapyd.conf放到etc/scrapyd/scrapy.conf

3.修改etc/scrapyd/scrapy.conf下的bind_address 为本机地址

4.重新安装twisted

pip uninstall twisted pip install tweisted==18.9.0#默认版本太高intxxx的错误

5.在开发的电脑上安装 pip install scrapyd-client 

6.修改scrapy/script/scrapyd-deploy 改为scrapy-deploy.py

7.在项目中找到scrapy.cfg然后配置如下:

setting中修改 服务器地址

[deploy:lanjia01]
url = http://localhost:6800/  #分布式多服务器IP地址
project = lanjia01
#[deploy:lanjia02] 
#url = http://localhost:6800/ #服务器IP地址 
#project = lanjia01

8.在目录的所在路径生成版本号: scrapyd-deploy default -p lianjia(为scrapy.cfg中的project项目名称);分布式部署 scrapyd-deploy  -a 部署到服务器上前提是服务器上已经运行了 scrapyd

9.下载curl安装打开bin/curl.exe

curl for Windows

10.在cmd中用命令发布爬虫

运行爬虫 linux:curl http:localhost:6800/schedule.json/ -d project=lianjia -d

关闭爬虫 linux:  curl http:localhost:6800/cancel.json/ -d project=lianjia -d job=xxxx

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/648853.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号