栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Request库丨Python爬虫基础入门系列(1)

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Request库丨Python爬虫基础入门系列(1)

提示:文末戳我名片>>Free领>>最新Python爬虫资料

文章目录
  • 前言
  • Requests库
    • 1、requests库安装
    • 2、Requests库的7个主要方法
    • 3、Response对象的属性
    • 4、Requests库异常
    • 5、理解Requests库的异常
    • 6、http协议
  • 总结


前言

爬虫的原理和requests库的作用
爬虫本质上是模拟人浏览信息的过程,只不过他通过计算机来达到快速抓取筛选信息的目的。所以,我们想要写一个爬虫,最基本的就是要将我们需要抓取信息的网页“原原本本”地抓取下来,这个时候就要用到requests库了。


话不多说,开始学习

Requests库 1、requests库安装

①同时按下win+R,输入cmd,打开命令行

②输入pip install requests

③输入python,启动python,再输入import requests。若不报错则安装成功

2、Requests库的7个主要方法

requests.request():构造一个请求,支撑一下各方法的基础方法。

requests.get():获取html网页的主要方法,对应于http的get。

requests.head():获取html网页头信息的方法,对应于http的head。

requests.post():向html网页提交post请求的方法,对应于http的post。

requests.put():向html网页提交put请求的方法,对应于http的put。

requests.patch():向html网页提交patch请求的方法,对应于http的patch。

requests.delete():向html页面提交删除请求,对应于http的DELETE。

3、Response对象的属性

r.status_code:http请求的返回状态,200表示连接成功,404表示失败,。

r.text:http响应内容的字符串形式,即url对应的页面内容。

r.encoding:从http header中猜测的相应内容编码方式

r.apprent_encoding:从内容中分析出的响应内容编码方式(备选编码方式)。

r.content:http响应内容的二进制形式。

4、Requests库异常

requests.ConnectionError:网络连接错误异常,如DNS查询失败、拒绝连接等。

requests.HTTPError:HTTP错误异常。

requests.URLRequired:URL缺失异常。

requests.TooManyRedirects:超过最大重定向次数,产生重定向异常。

requests.ConnectTimeout:连接远程服务器超时异常。

requests.Timeout:请求URL超时,产生超时异常。

5、理解Requests库的异常

r.raise_for_status():如果不是200,产生异常requests.HTTPError。

6、http协议

URL格式:http://host[:port][path]

host:合法的Internet主机域名或IP地址

port:端口号,可不写,默认为80

path:请求资源的路径


总结

requests库是一个非常强大的库,更多的功能可以去逛一逛官方的文档:https://docs.python-requests.org/zh_CN/latest/user/quickstart.html
Python爬虫基础入门系列(1)就到这,希望大家顺利入门Python爬虫,修炼成为爬虫大佬,早日当上“虫王”WoW!当然,如果你准备系统地来学网络爬虫及更多Python编程技术,可戳我的名片,Free领取最新Python爬虫资料/免费咨询/学习规划指导~

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/822907.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号