栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python3 编码问题: 怎么将Unicode转中文,以及GBK乱码ÖйúÉÙÊýÃñ×åÌØÉ«´åÕ¯

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python3 编码问题: 怎么将Unicode转中文,以及GBK乱码ÖйúÉÙÊýÃñ×åÌØÉ«´åÕ¯

原理:
如果***type(text) is bytes***,
那么text.decode('unicode_escape')


   如果type(text) is str
   那么text.encode(‘latin1’).decode(‘unicode_escape’)

1. 案例:

*

#coding=utf-8import requests,re,json,tracebackfrom  bs4 import  BeautifulSoupdef qiushibaike():
    content = requests.get('http://baike.baidu.com/city/api/citylemmalist?type=0&cityId=360&offset=1&limit=60').content

    soup = BeautifulSoup(content, 'html.parser')
    print(soup.prettify())  #.decode("unicode_escape")
    #目前soup.prettify()为str
    new=soup.prettify().encode('latin-1').decode('unicode_escape')    #.dencode('latin-1').encode('latin-1').decode('unicode_escape')

    print(new)if __name__=='__main__':
    qiushibaike()
2. 结果对比:

案例2,xe5x8fxa4xe8xbfxb9编码

xe5x8fxa4xe8xbfxb9编码处理

userInputTag=["xe5x8fxa4xe8xbfxb9","xe5xbbxbaxe7xadx91"]print(userInputTag[0].encode('latin-1').decode('utf-8'))

结果:

古迹

完成转化

出现GBK无法编译

另外爬取时,网站代码出现GBK无法编译python3,如出现如下:

ÖйúÉÙÊýÃñ×åÌØÉ«´åÕ¯[6]

示例:

#coding=utf-8import requests#共有6页,首页为空不为6for i in range(6):    if i==0:
        url='http://www.tcmap.com.cn/list/zhongguoshaoshuminzutesecunzhai.html'

    else:
        url='http://www.tcmap.com.cn/list/zhongguoshaoshuminzutesecunzhai'+str(i)+'.html'
    response=requests.get(url)
    print(type(response))   #如需成功编译,在.TEXT下面增加#号部分 
    html=response.text   #.encode('latin-1').decode('GBK')
    print(html)

文件读写操作codecs.open

python 文件读写时用open还是codecs.open
案例:当我们需要写入到TXT中的过程中
代替这繁琐的操作就是codecs.open,例如

import codecs
     fw = codecs.open(‘test1.txt’,’a’,’utf-8’)
     fw.write(line2)

不会报错,说明写入成功。这种方法可以指定一个编码打开文件,使用这个方法打开的文件读取返回的将是unicode。写入时,如果参数 是unicode,则使用open()时指定的编码进行编码后写入;如果是str,则先根据源代码文件声明的字符编码,解码成unicode后再进行前述 操作。相对内置的open()来说,这个方法比较不容易在编码上出现问题。


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/222515.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号