栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

06 Response对象的encoding属性修改字符编码格式

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

06 Response对象的encoding属性修改字符编码格式

06 Response对象的encoding属性修改字符编码格式

文章目录
  • 06 Response对象的encoding属性修改字符编码格式
    • 6.1 常见的中文字符编码格式
    • 6.2 查看网页的编码格式
    • 6.3 r.encoding = 'uft-8' 修改字符编码格式
      • 6.3.1 访问百度网页
    • 6.4 总结
      • 6.4.1. 语法总结
      • 6.4.2. 获取网页的步骤
      • 6.4.3. 访问中国文库网

6.1 常见的中文字符编码格式

当我们调用Response对象的text属性后,
响应的内容暨返回的html代码有时候是乱码。
这时我们将Response对象的encoding属性设置为中文字符的编码格式,
响应内容就可以正常显示了。

encoding英 [ɪnˈkəʊdɪŋ]:编码。

常用的中文字符编码格式有以下三种:
encoding = ‘gbk’
encoding = ‘utf-8’
encoding = ‘utf-8-sig’

不懂字符编码格式的可以百度了解。

6.2 查看网页的编码格式

步骤1:打开开发者工具
方法1:按【F12】快捷键打开;
方法2:鼠标右键,然后选择【查看网页源代码】。

步骤2:鼠标点击【控制台】或【Console】。

步骤3:在最下方的>前输入【document.charset】 下方显示的就是字符编码格式。

爬虫中响应的编码格式可以人工在【网页源代码】中查询,
也可以通过枚举法对三个常用的字符编码格式挨个去试。

6.3 r.encoding = ‘uft-8’ 修改字符编码格式 6.3.1 访问百度网页
# 导入访问网页要用的库
import requests

# 申明一个变量存储网址
# 网址是一个字符串变量,注意网址前后都必须有引号
url = 'https://www.baidu.com/'

print('*requests.get(url)函数得到的是一个Response对象*','n')
# 用requests.get(网址)访问网页 
# 库名.函数名(要访问的网址) 
# 发送请求,并把响应结果赋值给变量r
r = requests.get(url) 

print('*打印Response对象的status_code属性,即状态码*')
print(r.status_code,'n')

# 将响应内容的字符编码格式设置为utf-8
r.encoding = 'utf-8'

# 调用Response对象的text属性,获取响应内容
r_text = r.text

print('*type查看Response对象的text的类型*')
print(type(r_text ),'n')

print('*打印响应内容*','n',r_text)

【终端输出】

*requests.get(url)函数得到的是一个Response对象* 

*打印Response对象的status_code属性,即状态码*
200 

*type查看Response对象的text的类型*
 

*打印响应内容* 
 

 



百度一下,你就知道
 
 
 

【温馨提示】篇幅受限,HTML代码仅显示部分内容。
当我们用r.encoding = 'utf-8’将响应内容的字符编码格式设置为utf-8后,
然后调用r对象的text属性,我们得到的就是我们能看懂的HTML代码了。

6.4 总结 6.4.1. 语法总结
import requests
url = 'https://www.baidu.com/'
r = requests.get(url) # 获取网页: 库.函数(参数)得到一个response对象
r.status_code         # 对象.属性  r.status_code  
r.encoding = 'utf-8'  # 对象.属性  r.encoding = 'utf-8' 注意字符编码要放在引号里 
r.text                # 对象.属性  r.text

requests.get(url)得到一个response对象

response对象的3个属性:

对象.属性 r.status_code
对象.属性 r.encoding = ‘utf-8’ 注意字符编码要放在引号里
对象.属性 r.text

6.4.2. 获取网页的步骤

爬虫的第一步是获取网页。
获取网页主要有以下6步:
1.找到要爬取的网址;
2.找到网站的字符编码格式;
3.发送网络请求;
4.打印状态码检验请求是否成功;
5.修改字符编码格式;
6.查看HTML代码。

6.4.3. 访问中国文库网
# 写代码时通常把要用的库写在最上方
# 导入访问网页要用的库
import requests

# 1.找到要爬取的网址:
url = 'https://www.chinawenwang.com/'# 网址是一个字符串变量,注意网址前后都必须有引号

# 2.找到网站的编码格式:utf-8 

# 3.发送网络请求;
r = requests.get(url) # 用requests.get(网址)访问网页 

# 4.打印状态码检验请求是否成功
print(r.status_code,'n') #Response对象的status_code属性可以获取响应状态码

#5.修改字符编码格式;
r.encoding = 'utf-8' #encoding = 'uft-8' 修改字符编码格式

# 6.查看HTML代码
print(r.text)

【终端输出】

200 



    
        
        
        
        
        中国文库网-教育资源网,范文,语文,范文大全,论文,论文范文
        
        
        
        
        
        
        

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/980401.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号