实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫抓取策略

Python 更新时间：2026-05-21 19:53:14 发布时间：1677天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

目录

抓取策略

宽度优先策略

非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)

OCIP策略(online Page importance Computation)

大站优先策略

抓取策略
最简单的一种:按照队列顺序,当前下载网页的URL地址加入到队列的尾部,以此类推.但是这样做往往不太理想,我们的目标是优先抓取最重要的网页.下面介绍四种比较好的解决策略:宽度优先遍历策略,非完全PageRank策略,OCIP策略,大站优先策略

1)宽度优先遍历策略

2)非完全PageRank策略

3)OCIP策略

4)大站优先策略

宽度优先策略
这种策略是一种非常强悍的策略,很多开发者一般采用这种策略.这种策略隐含了一些链接优先级的假设:先出现的链接往往就是最重要的链接.

非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)
PageRank是一种著名的链接分析算法,用来衡量网页的重要性,但是PageRank是一个全局性的算法,就是说网页必须全部下载到了本地端后才可以看出来哪些是最重要的,但是我们往往不能全部下载下来,怎么解决呢?

对于已经下载的网页,加上待下载队列中的URL地址一起进行PageRank计算,按照优先级从高往低的顺序依次抓取URL即可,一般是攒够了K个网页之后再计算PageRank值,不然效率实在是太低了.

图2-8是非完全PageRank策略的一个简略示意图。我们设定每下载3 个网页即进行新的PageRank计算，此时已经有{P1，P2，P3}3个网页下载到本地，这3个网页包含的链接指向{P4，P5，P6}，形成了待抓取 URL队列，如何决定其下载顺序？将这6个网页形成新的集合，对这个集合计算PageRank值，这样P4、P5和P6就获得自己对应的PageRank 值，由大到小排序，即可得出其下载顺序。这里可以假设顺序为：P5、 P4、P6，当下载P5页面后抽取出链接，指向页面P8，此时赋予P8临时 PageRank值，如果这个值大于P4和P6的PageRank，则接下来优先下载 P8。如此不断循环，即形成了非完全PageRank策略的计算思路

OCIP策略(online Page importance Computation)
"在线网页重要性计算"策略:规定每一个页面有一定的金钱,每个页面被下载后,就将自己网页的金币平分到页面中已有的链接,对于待抓取队列,根据手头上有的现金金额多少排序,优先下载资金最富裕的页面.OCIP策略略优于宽度优先策略

大站优先策略
对于抓取的URL队列中的网页,根据所属的网站归类,哪个网站等待下载的页面最多,则优先下载这个链接.这个策略也是略高于宽度优先搜索

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/326678.html

上一篇 23种设计模式之备忘录模式

下一篇 ppstgres数据库大小查询

Python相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号