requests用法
requests是Python用于网络(http)请求的第三库,也是爬虫获取网络数据的重要工具
向目标地址(网络地址)发送请求
requests.get(url,*,headers,proxies,timeout)— 以指定的方式给地址发送网络请求,返回值是服务器返回的响应对象
参数说明:
url —— 字符串;请求的网络地址或接口
headers —— 字典;请求头,用于伪装浏览器设置user-agent ,完成自动登录设置cookie
proxies —— 字典;设置代理IP(IP地址被封后使用)
timeout —— 数字;设置超时时间
获取响应头:
print(response.headers)
设置响应的编码方式(在获取请求结果乱码的时候使用)
response.enconding=''
获取请求结果
1获取字符串格式的结果(爬网页)
print(response.text)
获取二进制格式的结果(爬图片、视频、音频)
print(response.content)
获取json格式解析结果(爬接口)
print(response.json())
创建BeautifulSoup对象
BeautifulSoup('html代码','lxml') —— 返回网页对象
解析获取标签
基于整个网页获取标签
BeautifulSoup对象.select(css选择器) —— 返回css选择器在整个网页中选中的所有标签,返回值是列表,列表中元素是标签对象 BeautifulSoup对象.select_one(css选择器) —— 返回css选择器在整个网页中选择的第一个标签,返回值是标签对象
基于指定标签获取标签
**标签对象.select(css选择器) **—— 在指定标签中按照选择器选中相关标签
标签对象.select_one(css选择器)
获取标签内容和标签属性值
获取标签内容
标签对象.text
标签对象.string
标签对象.contents
获取标签属性
标签对象.attrs[属性名]



