栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫项目部署

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫项目部署

基于scrapy技术开发完成的爬虫项目

部署scrapy项目的服务器,需要在服务器上安装准备

pip install scrapyd

项目部署工具,需要在项目所在客户端安装【命令:scrapyd-deploy】

pip install scrapyd-client

(注意:以上内外部环境都要安装)

修改爬虫项目配置

找到pycharm项目所在的虚拟环境的文件夹 ,文件夹下的scrapy-deploy 文件在windows下是不能被识被运行的,所以需要配置

在桌面新建文本文档,输入如下:

@echo off

"C:UsersAdministratorAppDataLocalProgramsPythonPython36-32python.exe" "E:Djangoscriptsscrapyd-deploy" %*

(注意:第一个路径是pthon配置所在路径【可在环境变量中查看】,第二个是项目环境所在路径【可在pycharm—setting配置中查看】)

修改后缀重命名为:scrapyd-deploy.bat  放到环境所在文件夹下。

在此路径中输入cmd启动命令行输入:scrapyd-deploy ,显示以下则配置成功

测试远程运行服务器是否正常:创建一个scrapyd爬虫工作文件夹,在该文件夹路径下执行如下命令[文件夹中会初始化部署服务器相关信息]

输入 scrapyd  启动服务器

浏览器访问http://localhost:6800 查看服务器对应的web管理网站

进入pycharm 找到所要部署的爬虫项目,打开scrapy.cfg 修改配置 启动项目如下:

scrapyd-deploy 【服务器上的项目名称】 -p 【本地项目名称】

现在项目已部署到服务器,进页面可查看:

CMD 打开命令行 输入以下命名操作项目:

(注意:curl 需要安装,这里就不多说了)

 

查看服务器中所有的项目信息

curl http://localhost:6800/listprojects.json

 

查看某个特定项目的爬虫列表信息
curl http://localhost:6800/listspiders.json?project=myproject



远程启动爬虫项目

curl http://localhost:6800/schedule.json -d project=qidian -d spider=xiaoshuo

 

远程停止/删除爬虫项目-工作计划job

curl http://localhost:6800/cancel.json -d project= -d job=

 

查看服务器负载状态

curl http://localhost:6800/daemonstatus.json


查看指定项目的任务列表

curl http://localhost:6800/listjobs.json

 

删除某个项目在服务器上的某个版本

curl http://localhost:6800/delversion.json -d project=myproject -d version=1543545055

 

删除项目在服务器上所有版本

curl http://localhost:6800/delproject.json -d project=myproject

===========================================

哈!是不是感觉很麻烦啊,界面也很low!其实你可以用django自己写套启动界面

不想写?不会?没关系!还有个简单美观的部署——gerapy 爬虫项目部署








转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/220846.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号