栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python > python爬虫

python3爬虫实战:使用浏览器cookie

python爬虫 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

python3爬虫实战:使用浏览器cookie

在日常生活中,我们会发现当我们登录的淘宝时,只要我们注册好并成功登录后,下次访问该网站时,淘宝就会记住我们的登录信息,而无需重新登录,在这个过程中使用的就是cookie的技术。cookie是指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。通过浏览器登录一次,登录的信息就会被浏览器cookie保存下来,这对于经常忘记账号密码的小伙伴们真的是很友好啊,那你知道浏览器cookie是怎么使用的吗?下面来看看吧。


以网页提取标题为例

>>> import re

>>> get_title = lambda html: re.findall('(.*?)', html, flags=re.DOTALL)[0].strip()

未登录情况下下载得到的标题:

>>> import urllib2

>>> url = 'https://bitbucket.org/'

>>> public_html = urllib2.urlopen(url).read()

>>> get_title(public_html)

'Git and Mercurial code management for teams'

使用第三方库browsercookie,获取cookie再下载:

>>> import urllib.request

>>> public_html = urllib.request.urlopen(url).read()

>>> opener = urllib.request.build_opener(urllib.request.HTTPcookieProcessor(cj))


其实呀,browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具,让你轻松使用浏览器cookie,这么方便的方式要快点学起来哦~更多python学习推荐:python学习网。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/12553.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号