栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫之需要爬取登录之后的界面(cookie)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫之需要爬取登录之后的界面(cookie)

1.在登录界面打开检查,从检查network里捕捉login的登录信息和login_url

登录信息即是from_data

2.将登录信息作为python字典data里元素

3.调用session = requests.session()

4.session.post(login_url,data)

post 或 get根据检查里信息看

获取cookie信息

5.在登录以后的界面找到要爬取的信息

刷新 页面,在检查里看network的preview找到文字内容后,在preview旁边的headers找到url

用resp = session.get(url)爬取信息,可以将爬取的信息存到字符串中

6.用xpath,re,bs4继续爬取信息

import requests
import re

login_url = "xxxxxxxxxxxx"

data = {
:,
:
}

session = requests.session()

session.post(login_url,data)

url = 'xxxxxxxxxxxxxxxxxxx'
resp = session.get(url)

#print(resp.text)

com1 = re.compile('"authorPenName":"(?P.*?)",',re.S)

com2 = re.compile('"bookName":"(?P.*?)",',re.S)
a_list = []
b_list = []
au_list = com1.finditer(resp.text)
bo_list = com2.finditer(resp.text)

for a in au_list:
    a_list.append(a.group("a_name"))
for b in bo_list:
    b_list.append(b.group("b_name"))
i = 0
for i in range(len(a_list)):
    print(a_list[i],"  ",b_list[i])
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/293773.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号