栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬虫基础之pyspider是什么?如何用?

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬虫基础之pyspider是什么?如何用?

最近我们学了不少爬虫的框架,有些小伙伴反映可以出一些难的框架学习一下。对于这种爱挑战的精神,小编是非常鼓励的。结合目前大家的学习python爬虫的接受能力,小编决定为大家讲讲pyspider框架,虽然有一点点难度,不过各方面的功能和爬取的效果都非常不错,接下来我们看看pyspider的介绍以及简单的使用。


pyspider是Binux做的一个爬虫架构的开源化实现,主要功能有 :

  • 抓取、更新调度多站点的特定的页面

  • 需要对页面进行结构化信息提取

  • 灵活可扩展,稳定可监控

pyspider以去重调度,队列抓取,异常处理,监控等功能作为框架,只需提供给抓取脚本,并保证灵活性。最后加上web的编辑调试环境,以及web任务监控,即成为了这套框架。pyspider的设计基础是:以python脚本驱动的抓取环模型爬虫

 

  • 各个组件间使用消息队列连接,除了scheduler是单点的,fetcher 和 processor 都是可以多实例分布式部署的。 scheduler 负责整体的调度控制

  • 任务由 scheduler 发起调度,fetcher 抓取网页内容, processor 执行预先编写的python脚本,输出结果或产生新的提链任务(发往 scheduler),形成闭环

  • 每个脚本可以灵活使用各种python库对页面进行解析,使用框架API控制下一步抓取动作,通过设置回调控制解析动作。

以上就是python爬虫pyspider框架的一些介绍,没太看明白的小伙伴可以结合以上的图片,相信对于pyspider框架的理解有一定的帮助。更多Python学习指路:PyThon学习网教学中心。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/11580.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号