目录
抓取策略
宽度优先策略
非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)
OCIP策略(online Page importance Computation)
大站优先策略
抓取策略
最简单的一种:按照队列顺序,当前下载网页的URL地址加入到队列的尾部,以此类推.但是这样做往往不太理想,我们的目标是优先抓取最重要的网页.下面介绍四种比较好的解决策略:宽度优先遍历策略,非完全PageRank策略,OCIP策略,大站优先策略
1)宽度优先遍历策略
2)非完全PageRank策略
3)OCIP策略
4)大站优先策略
宽度优先策略
这种策略是一种非常强悍的策略,很多开发者一般采用这种策略.这种策略隐含了一些链接优先级的假设:先出现的链接往往就是最重要的链接.
非完全PageRank策略(争议很大,未必比宽度优先好.故而了解即可)
PageRank是一种著名的链接分析算法,用来衡量网页的重要性,但是PageRank是一个全局性的算法,就是说网页必须全部下载到了本地端后才可以看出来哪些是最重要的,但是我们往往不能全部下载下来,怎么解决呢?
对于已经下载的网页,加上待下载队列中的URL地址一起进行PageRank计算,按照优先级从高往低的顺序依次抓取URL即可,一般是攒够了K个网页之后再计算PageRank值,不然效率实在是太低了.
图2-8是非完全PageRank策略的一个简略示意图。我们设定每下载3 个网页即进行新的PageRank计算,此时已经有{P1,P2,P3}3个网页下 载到本地,这3个网页包含的链接指向{P4,P5,P6},形成了待抓取 URL队列,如何决定其下载顺序?将这6个网页形成新的集合,对这个 集合计算PageRank值,这样P4、P5和P6就获得自己对应的PageRank 值,由大到小排序,即可得出其下载顺序。这里可以假设顺序为:P5、 P4、P6,当下载P5页面后抽取出链接,指向页面P8,此时赋予P8临时 PageRank值,如果这个值大于P4和P6的PageRank,则接下来优先下载 P8。如此不断循环,即形成了非完全PageRank策略的计算思路
OCIP策略(online Page importance Computation)
"在线网页重要性计算"策略:规定每一个页面有一定的金钱,每个页面被下载后,就将自己网页的金币平分到页面中已有的链接,对于待抓取队列,根据手头上有的现金金额多少排序,优先下载资金最富裕的页面.OCIP策略略优于宽度优先策略
大站优先策略
对于抓取的URL队列中的网页,根据所属的网站归类,哪个网站等待下载的页面最多,则优先下载这个链接.这个策略也是略高于宽度优先搜索



