栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

python爬取分页数据

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python爬取分页数据

今天需要到这个广东省科学技术厅网站上查一个办件信息,结果发现……

这个不能直接选页码也不能搜索的分页真是剧毒……好几百页让人怎么翻呢。。。

于是我果断F12看一下


可以看到请求的url和post的表单数据,复制到浏览器看看
这里最重要的参数就是pageNum(第几页)和pageSize(每页有多少条数据)
http://zwfw.gd.gov.cn/portal/xnjd/bjxx?pageNum=1&pageSize=10&orgCode=006939801&xzqhdm=440000&url=%2Fprocess-details&phase=5

果然是第一页的10条数据,可以改它的pagesize,但是我发现最大只能改到50,超过50就会请求失败了。
所以我就用python写个循环去请求每一页好了。pageNum就固定在50,用format来修改pageNum。
具体总页数我也不知道,随便试了几次大概就是有4000多条数据。

import requests
import json

def start():
    url = "http://zwfw.gd.gov.cn/portal/xnjd/bjxx?pageNum={}&pageSize=50&orgCode=006939801&xzqhdm=440000&url=%2Fprocess-details&phase=5"
    for i in range(1, 100):
        url2 = url.format(i)
        res = requests.post(url2)
        print(res.text)
        
if __name__ == "__main__":
    start()

就会全部出现在控制台,ctrl+F就可以马上搜索到想要的流水号,不用慢慢翻页啦开心~

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/468262.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号