栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

cookie如何在python爬虫中响应网页?

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

cookie如何在python爬虫中响应网页?

我们在访问一个网页前,要先进行登陆的操作,虽然可以选择选择下次自动登录的选项。有没有小伙伴们想过,直接进入网站页面不就行了吗,为什么还要进行登录这项重复的操作呢?这是网站的一个反爬虫措施,防止短时间内大量爬虫的获取数据。当然有时候我们也需要采集一些数据,这就需要用到cookie。下面我们一起看看cookie的简单介绍和它响应网页的方法。


cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)

比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的cookie,然后再抓取其他页面就达到目的了。

 

从响应中获取cookie

我们就可以先访问该站的某个页,建立了session连接之后,获取cookie,再伪造头进行访问。

>>> from bs4Test import *
>>> s = requests.session()
>>> s.get("https://www.gebiz.gov.sg/ptn/opportunity/BOListing.xhtml?origin=menu")
>>> print(s.cookies)
# 下面是打印结果
, http://www.gebiz.gov.sg/>, http://www.gebiz.gov.sg/>]>


最后拼接cookie串

cook_value = ''
for x in cook:
    cook_value += x.name + '=' + x.value + ';'
cook_value = cook_value[:len(cook_value)-1]
print(cook_value)
#打印结果
__cfduid=d9ed16845e45ce7496268e8b2293dadc81456745242;BIGipServerPTN2_PRD_Pool=18964640.47873.0000;wlsessionid=nUIsyGBSLqjakq4P5dEDh4TNUJBYtw4nIpxkyITzrj2A5CalOWZ9!-936114045


学完本篇文章我们可以知道,cookie可以保存我们之前的登录信息,在获取数据方面就不需要再反复的登录啦,是不是很方便和实用呢~

更多Python学习指路:PyThon学习网教学中心。


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/11597.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号