栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python日志19

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python日志19

requests和bs4学习总结 一、requests

    requests用法

    requests是Python用于网络(http)请求的第三库,也是爬虫获取网络数据的重要工具

    向目标地址(网络地址)发送请求

    requests.get(url,*,headers,proxies,timeout)— 以指定的方式给地址发送网络请求,返回值是服务器返回的响应对象

    参数说明:

    url —— 字符串;请求的网络地址或接口

    headers —— 字典;请求头,用于伪装浏览器设置user-agent ,完成自动登录设置cookie

    proxies —— 字典;设置代理IP(IP地址被封后使用)

    timeout —— 数字;设置超时时间

    获取响应头:

    print(response.headers)
    

    设置响应的编码方式(在获取请求结果乱码的时候使用)

    response.enconding=''
    

    获取请求结果

    1获取字符串格式的结果(爬网页)

    print(response.text)
    

    获取二进制格式的结果(爬图片、视频、音频)

    print(response.content)
    

    获取json格式解析结果(爬接口)

    print(response.json())
    
二、bs4

    创建BeautifulSoup对象

    BeautifulSoup('html代码','lxml') —— 返回网页对象
    

    解析获取标签

    基于整个网页获取标签

    BeautifulSoup对象.select(css选择器) —— 返回css选择器在整个网页中选中的所有标签,返回值是列表,列表中元素是标签对象
    
    BeautifulSoup对象.select_one(css选择器) —— 返回css选择器在整个网页中选择的第一个标签,返回值是标签对象
    

    基于指定标签获取标签

    **标签对象.select(css选择器) **—— 在指定标签中按照选择器选中相关标签

    标签对象.select_one(css选择器)

    获取标签内容和标签属性值

    获取标签内容

    标签对象.text

    标签对象.string

    标签对象.contents

    获取标签属性

    标签对象.attrs[属性名]

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/769819.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号