栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

爬虫学习2--简单爬取网页

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

爬虫学习2--简单爬取网页

今天的目标是学习一些简单的爬取网页的代码 顺便记录下来 1.在IDE中简单爬取百度网页。

步骤:

1.import requests

调用requests库 。

2.r=requests.get("http://www.baidu.com")

用requests库中的get方法访问百度网页。

3.print(r.status_code)

打印出http请求的返回状态,若未返回200,则访问中出现错误。

4.type(r)

检测r的类型,图中返回表示r是Response类型。

5.r.headers

 返回get请求获得的页面头部信息。

其他:

 

r.text

查看页面内容。(打印所有页面内容)。

r.encoding

从http的header中猜测的编码方式。(如果header中不存在chaeset,则认为编码为ISO-8859-1)

r.apparent_encoding 

从内容中分析出的编码方式。

关键:

如果用r.apparent_encoding 代替r.encoding的编码,可以看到网页中的中文。

r.encoding = 'utf-8'

2.爬取网页的简单代码框架

先理解requests库的一些异常

 

通用代码框架: 
def getHTMLText(url)
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()  #如果状态不是200,引发HTTPError异常
        r.encoding=r.apparent_encoding  #改变返回内容的解码
        return r.text
    except:
        return "产生异常"

 

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/338937.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号