本文是基于Webmagic提供的爬虫技术爬取的文章,虽然该技术已不再更新,但是现有的功能不影响正常使用,这点还是非常棒的,使用方面的问题直接看官方文档就行了,我这里只介绍个人爬取csdn的文章介绍。
官网中文文档地址是:http://webmagic.io/docs/zh/,
github地址是: https://github.com/code4craft/webmagic。
适合对象:java开发人员或者已经在本地安装了java环境而又不想再安装python环境的人(本人没错了)
我们这次主要是爬取csdn首页推荐模块的文章来练练手。
推荐模块的文章一看就是懒加载,一次性只会提供20篇文章,然后继续下拉才会进行新的请求获取新的文章。所以我们得找到获取文章的链接,通过f12打开控制台,当我们不停的获取推荐模块的文章时控制台network有个select_content一直在请求,因此就看下这个请求的返回值是不是我们想要的。



