栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫库分享(一):requests常见用法总结

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫库分享(一):requests常见用法总结

一.前言

requests是Python中一个用来发出HTTP请求的库,它将复杂的网络请求封装为一个简单的API以供用户调用,对于一般比较简单的爬虫程序而言,requests库足矣,今天博主分享一下requests库的常见用法,本文主要针对有志爬虫的新人。

二.常见用法 2.1 安装与引用

当然,在使用前需要在Python环境中安装requests库:

pip install requests

安装完成后便可以通过import命令即可引用该库:

import requests
2.2 GET请求

HTTP最常见的请求包括GET和POST,这里先介绍前者。GET请求用来向服务器请求资源。通过GET请求,我们发送自定义HTTP请求头给服务器,浏览器在发送GET请求时的HTTP请求头一般包括Accept、Accept-Encoding、UserAgent等。

requests库发送GET请求,只需要调用如下的API:

requests.get(url, params, headers, proxies, timeout, verify)
# 参数说明
"""
url: 请求的URL
params: 字典元组列表,查询字符串参数,通过其可以向URL对应的参数传值,从而能够将数据传送给服务器,一般是URL?后面的内容
headers: 请求头,字典类型 (python程序伪装成浏览器发送请求的关键)
proxies: 字典,设置代理IP
timeout: 数字,超时时间,单位为秒
verify: 布尔值True或者False,指示是否验证服务器的TSL证书,默认为True (爬虫程序有时候需要将其关闭,否则验证失败,爬虫终止)
"""
2.2.1 Response对象

requests.get()函数将会返回服务器的响应——requests.Response对象,该对象包含了请求的结果,其常用属性/方法概括如下表:

属性说明
url响应的URL
text响应的内容 (unicode码)
json()如果响应的结果是一个json对象,可以调用该方法,否则会报错
content返回响应的内容(字节的形式)
status_code响应代码,其中200表示响应成功,404表示Not Found等等
2.2.2 GET请求示例

下面就以博主发的一篇文章使用NNI,从此告别手动调参作为例子,其对应的URL为:

https://blog.csdn.net/qq_42103091/article/details/123287865?spm=1001.2014.3001.5502

我们可以调用requests.get()方法来模拟浏览器请求该文章:

import requests

headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36"}
params = {"spm":"1001.2014.3001.5502"}
url = "https://blog.csdn.net/qq_42103091/article/details/123287865"

response = requests.get(url=url, params=params, headers=headers)
# 响应的URL
print(response.url)
# https://blog.csdn.net/qq_42103091/article/details/123287865?spm=1001.2014.3001.5502
# 状态码
print(response.status_code)
# 200

可以看到上述示例的请求URL中问号后面的字段便是作为查询字符串参数的值而传入get()函数的。

2.3 POST请求

倘若需要向服务器上传数据,一般采用POST请求。常见的应用场景为提交HTML表单。发送给服务器的数据包含在POST请求的消息体 (request body)中,POST请求中的Content-Type用来指示请求正文的数据类型,而Content-Length则指示了请求中的数据长度。

requests库发送POST请求,只需要调用如下的API:

requests.post(url, data, json, headers, proxies, timeout, vertify)
# 参数说明
"""
url: 请求的URL
data: 发送给指定URL的字典、元组列表、字节或文件对象
json: 发送给指定URL的JSON对象
headers、proxies、timeout、vertify: 与get()方法同
"""

注:post方法在调用后也会返回一个requests.Response对象。

2.3.1 POST请求示例

为避免涉及具体网站,本次实践采用了某网站提供的验证POST请求网址:https://httpbin.org/forms/post,其界面表单截图为:

填入数据后,点击提交按钮可以看到提交的请求,其界面截图如下:

基于此,我们可以利用requests.post()方法来完成该操作:

import requests
import json

url = "https://httpbin.org/post"

data = {
    "comments": "加辣", 
    "custemail": "119@163.com", 
    "custname": "2333", 
    "custtel": "119", 
    "delivery": "17:30", 
    "size": "large", 
    "topping": "onion"
}

response = requests.post(url=url, data=data)
print(response.status_code)
# 200
with open("temp.json", "w", encoding="utf-8") as fp:
    json.dump(response.json(), fp, ensure_ascii=False)

上述代码实现了表单的提交,并将响应的JSON对象保存到了本地。返回200说明提交表单成功,下面是其对应返回的json数据截图:

实际运营的网站大多数都比这要复杂,此时就要具体问题具体分析了。

四.结语

在完成本文的过程中,参考了很多非常好资源:

HTTP GET Request MethodHow do I send an HTTP POST request?

以上便是本文的全部内容,要是觉得不错的话,可以点个赞或关注一下博主,你们的支持是博主进步的不竭动力,当然要是有问题的话也敬请批评指正!!!

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/754504.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号