栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

一个爬freebuf所有历史文章的爬虫

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

一个爬freebuf所有历史文章的爬虫

Freebuf-Spider

一个抓取freebuf所有栏目的文章的爬虫,以离线网页形式展现,上传了一些爬取好的结果

程序运行方式
  python freebuf.py

  • 输入文件名:输入要生成的html文件的文件名

  • 输入栏目网址:freebuf文章分成了很多栏目,在分类阅读里面可以获取每个栏目的网址

  • 该栏目总共有多少页:在栏目网址后面加上   /page/页数

http://www.freebuf.com/sectool    -->http://www.freebuf.com/sectool/page/100

如果返回是


说明这个栏目没有这么多页,写程序的二分法不用我教吧,用这个方法可以快速得出总页数,然后填上即可

需要模块
  import requests  import re  import urllib
输出结果

暂时爬取了三个栏目放在这里,大家可以看下效果,自己可以动手爬其他的

终端安全

可以看到freebuf终端安全的文章从建站到现在全部在这里了

安全工具合集

下载

程序和生成结果在这里下载!

各位给个star吧('')


作者:hfyhfyfhy
链接:https://www.jianshu.com/p/36e88702853b

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/223313.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号