栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python爬虫学习(一):爬取一个网页并打印

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python爬虫学习(一):爬取一个网页并打印

爬虫一般依赖于requests库,首先通过pip或conda命令安装requests库。切换到自己环境所在的终端。输入以下命令:

pip install requests   /    pip install requests

然后在自己的环境中导入requests库看会不会报错。

import requests

库安装没有问题后开始使用requests库进行第一个Python爬虫。

目的爬取百度页面,并且将其打印出来,并消除其打印出来时可能会发生的乱码。以下给出代码:

import requests
url = 'https://www.baidu.com'
try:
    r = requests.get(url)
    print(r.status_code)  #HTTP请求的返回状态,200表示连接成功,404表示失败
    r.raise_for_status()  ##如果状态码返回不是200,抛出HTTPRError错误
    r.encoding = r.apparent_encoding   #防止乱码
    print(r.text)
except:
    print("爬取失败")  #异常处理
r.encoding = r.apparent_encoding
其中r.encoding是从HTTP header中猜测的响应内容编码方式,而r.apparent_encoding是从内容中分析出的响应内容编码方式(备选编码方式)。 当要爬取某个视频或图片时以二进制的方式可以将其爬下来。 r.content是HTTP 响应内容的二进制形式。
转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/423212.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号