栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

从python中的字符串中剥离不可打印的字符

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

从python中的字符串中剥离不可打印的字符

不幸的是,在Python中遍历字符串相当慢。对于这种事情,正则表达式的速度要快一个数量级。您只需要自己构建角色类即可。该 unipredata
模块是这个相当有帮助,尤其是 unipredata.category()
函数。有关类别的说明,请参见Unipre字符数据库。

import unipredata, re, itertools, sysall_chars = (chr(i) for i in range(sys.maxunipre))categories = {'Cc'}control_chars = ''.join(c for c in all_chars if unipredata.category(c) in categories)# or equivalently and much more efficientlycontrol_chars = ''.join(map(chr, itertools.chain(range(0x00,0x20), range(0x7f,0xa0))))control_char_re = re.compile('[%s]' % re.escape(control_chars))def remove_control_chars(s):    return control_char_re.sub('', s)

对于Python2

import unipredata, re, sysall_chars = (unichr(i) for i in xrange(sys.maxunipre))categories = {'Cc'}control_chars = ''.join(c for c in all_chars if unipredata.category(c) in categories)# or equivalently and much more efficientlycontrol_chars = ''.join(map(unichr, range(0x00,0x20) + range(0x7f,0xa0)))control_char_re = re.compile('[%s]' % re.escape(control_chars))def remove_control_chars(s):    return control_char_re.sub('', s)

对于某些用例,最好使用其他类别(例如,来自 控制 组的所有类别),尽管这可能会减慢处理时间并显着增加内存使用。每个类别的字符数:

  • Cc
    (控制):65
  • Cf
    (格式):161
  • Cs
    (代理):2048
  • Co
    (私人使用):137468
  • Cn
    (未分配):836601

编辑 从注释中添加建议。



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/669142.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号