栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

使用Python查找和替换非ASCII字符的正则表达式

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

使用Python查找和替换非ASCII字符的正则表达式

针对Python 3更新:

>>> 'Tannh‰user'.enpre().depre('ascii', 'replace').replace(u'ufffd', '_')'Tannh___user'

首先,我们使用创建字节字符串

enpre()
-默认情况下,它使用UTF-8编解码器。如果您有字节字符串,那么当然可以跳过此编码步骤。然后,我们使用ascii编解码器将其转换为“普通”字符串。

这使用了UTF-8的属性,即所有非ASCII字符都被编码为值> = 0x80的字节序列。


原始答案–对于Python 2:

如何使用内置

str.depre
方法做到这一点:

>>> 'Tannh‰user'.depre('ascii', 'replace').replace(u'ufffd', '_')u'Tannh___user'

(您会得到

unipre
字符串,因此可以
str
根据需要将其转换为。)

您还可以转换

unipre
str
,因此一个非ASCII字符将被ASCII之一代替。但是问题在于,
unipre.enpre
通过
replace
将非ASCII字符转换为
'?'
,所以您不知道问号是否已经存在;请参阅Ignacio
Vazquez-Abrams的解决方案。


另一种方法是使用

ord()
和比较每个字符的值(如果它们适合ASCII范围(0-127))-这适用于
unipre
字符串以及
str
utf-8,拉丁语和其他一些编码:

>>> s = 'Tannh‰user' # or u'Tannh‰user' in Python 2>>> >>> ''.join(c if ord(c) < 128 else '_' for c in s)'Tannh_user'


转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/639317.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号