栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Java

java爬虫框架webmagic包含的组件有哪些

Java 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

java爬虫框架webmagic包含的组件有哪些

在java爬虫中,Spider是一个大的容器,也是java爬虫框架webmagic的核心。java爬虫框架webmagic有四个组件,这四个组件它也是由通过Spider启动和管理。本文介绍java爬虫中支撑WebMagic框架运行的四个组件:PageProcessor、Scheduler、Downloader和Pipeline。

一、WebMagic框架

WebMagic是一个开源的Java爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。

WebMagic框架的核心非常简单,但是覆盖爬虫的整个流程,也是很好的学习爬虫开发的材料。

二、WebMagic框架组件

包含四个组件:PageProcessor、Scheduler、Downloader和Pipeline。

四大组件由Spider将它们彼此组织起来,让它们可以互相交互,流程化的执行。

1、PageProcessor 

对应爬虫生命周期中的处理功能,负责解析页面,抽取有用信息,以及发现新的链接。需要自己定义。

注意:对于每个站点每个页面都不一样,是需要使用者定制的部分。

2、Scheduler 

这四大组件对应爬虫生命周期中的管理功能,负责管理待抓取的URL,以及一些去重的工作。

注意:除非项目有一些特殊的分布式需求,否则一般无需自己定制Scheduler。

3、Pipeline 

对应爬虫生命周期中的持久化功能,负责抽取结果的处理,包括计算、持久化到文件、数据库等。

注意:对于一类需求一般只需编写一个Pipeline。

4、Downloader 

对应爬虫生命周期中的下载功能,负责从互联网上下载页面,以便后续处理。

注意:一般无需自己实现。

以上就是关于java爬虫框架webmagic的四大组件的介绍,希望能帮助你理解java爬虫框架webmagic哦~更多java学习:java教程。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/15081.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号