Request库丨Python爬虫基础入门系列(1)

提示：文末戳我名片>>Free领>>最新Python爬虫资料

文章目录

前言
Requests库
- 1、requests库安装
- 2、Requests库的7个主要方法
- 3、Response对象的属性
- 4、Requests库异常
- 5、理解Requests库的异常
- 6、http协议
总结

前言

爬虫的原理和requests库的作用
爬虫本质上是模拟人浏览信息的过程，只不过他通过计算机来达到快速抓取筛选信息的目的。所以，我们想要写一个爬虫，最基本的就是要将我们需要抓取信息的网页“原原本本”地抓取下来，这个时候就要用到requests库了。

话不多说，开始学习

Requests库 1、requests库安装

①同时按下win+R，输入cmd，打开命令行

②输入pip install requests

③输入python，启动python，再输入import requests。若不报错则安装成功

2、Requests库的7个主要方法

requests.request()：构造一个请求，支撑一下各方法的基础方法。

requests.get()：获取html网页的主要方法，对应于http的get。

requests.head()：获取html网页头信息的方法，对应于http的head。

requests.post()：向html网页提交post请求的方法，对应于http的post。

requests.put()：向html网页提交put请求的方法，对应于http的put。

requests.patch()：向html网页提交patch请求的方法，对应于http的patch。

requests.delete()：向html页面提交删除请求，对应于http的DELETE。

3、Response对象的属性

r.status_code：http请求的返回状态，200表示连接成功，404表示失败，。

r.text：http响应内容的字符串形式，即url对应的页面内容。

r.encoding：从http header中猜测的相应内容编码方式

r.apprent_encoding：从内容中分析出的响应内容编码方式（备选编码方式）。

r.content：http响应内容的二进制形式。

4、Requests库异常

requests.ConnectionError：网络连接错误异常，如DNS查询失败、拒绝连接等。

requests.HTTPError：HTTP错误异常。

requests.URLRequired：URL缺失异常。

requests.TooManyRedirects：超过最大重定向次数，产生重定向异常。

requests.ConnectTimeout：连接远程服务器超时异常。

requests.Timeout：请求URL超时，产生超时异常。

5、理解Requests库的异常

r.raise_for_status()：如果不是200，产生异常requests.HTTPError。

6、http协议

URL格式：http://host[:port][path]

host：合法的Internet主机域名或IP地址

port：端口号，可不写，默认为80

path：请求资源的路径

总结

requests库是一个非常强大的库，更多的功能可以去逛一逛官方的文档：https://docs.python-requests.org/zh_CN/latest/user/quickstart.html
Python爬虫基础入门系列(1)就到这，希望大家顺利入门Python爬虫，修炼成为爬虫大佬，早日当上“虫王”WoW！当然，如果你准备系统地来学网络爬虫及更多Python编程技术，可戳我的名片，Free领取最新Python爬虫资料/免费咨询/学习规划指导~

Request库丨Python爬虫基础入门系列(1)

Python相关栏目本月热门文章