实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

资产收集—爬取百度搜索URL脚本

Python 更新时间：2026-06-06 12:19:01 发布时间：1663天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

谷歌语法在收集资产这方面挺有用的，于是手撸了爬取百度URL脚本，后续和AWVSapi脚本联动实现自动化挖洞

代码完整截图：
使用方法：

第一步输入爬取的页数，这里演示的是爬取5页
第二步输入百度搜索的字符串，这里爬取163.com的子域名
第三步输入保存文件名称，这里是www.txt

爬取的局部URL

代码解析：
该代码采用的是单线程，如果想爬取速度快一点可以自行改为多线程
百度搜索有爬虫检测机制，所以要定制header
search为要搜索的字符串，因为百度搜索的字符串经过了URL编码，所以我们也编码一下，num是页码，因为百度的第一页为0，第二页为10，第三页为20，所以num要乘以10

完整的百度搜索URL
使用XPATH来解析爬取到的百度页面
XPATH详解：https://www.runoob.com/xpath/xpath-syntax.html

因为百度搜索的每个标题对应的html格式如下
所以提取属性为target="_blank"的a标签的herf的值

提取之后包含了一些脏URL，所以要去掉

在对上面提取的URL进行请求后，发生了302跳转，Location位置为真实链接，所以我们提取Location位置的URL就行了
当我们用request时要用try来捕捉异常，有时请求太频繁会出现异常，这时睡眠1秒再请求。
这里我去掉了百度知道，百度百科等一些链接，但是就不能爬取百度资产了，如果你们想爬取百度资产，可以去掉或改为具体域名。

然后去掉重复URL

最后写到要保存的文件里面

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/498901.html

上一篇 [问答题简答题] 简述CDMA网络中Uu接口的一般原则。

下一篇【网络爬虫】网络爬虫之入门练习

Python相关栏目本月热门文章

热门相关搜索

路由器设置木托盘宝塔面板儿童python教程心情低落朋友圈 vim 双一流学科专升本我的学校日记学校西点培训学校汽修学校情书化妆学校塔沟武校异形模板西南大学排名最精辟人生短句 6步教你追回被骗的钱南昌大学排名清朝十二帝北京印刷学院排名北方工业大学排名北京航空航天大学排名首都经济贸易大学排名中国传媒大学排名首都师范大学排名中国地质大学(北京)排名北京信息科技大学排名中央民族大学排名北京舞蹈学院排名北京电影学院排名中国戏曲学院排名河北政法职业学院排名河北经贸大学排名天津中德应用技术大学排名天津医学高等专科学校排名天津美术学院排名天津音乐学院排名天津工业大学排名北京工业大学耿丹学院排名北京警察学院排名天津科技大学排名北京邮电大学(宏福校区)排名北京网络职业学院排名北京大学医学部排名河北科技大学排名河北地质大学排名河北体育学院排名

关于我们文章归档网站地图联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号：晋ICP备2021003244-6号