栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Python文本处理:字符串

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Python文本处理:字符串

目录

一、浅谈“字符串”

(1)字符串编码格式

(2)字符串判断

二、“字符串”多样化展示 

(1)转义字符

(2)格式化字符串

三、字符串常量

四、字符串常见操作


一、浅谈“字符串”

在“字符串”Python中属于不可变有序序列。为方便编写,通常以单引号为定界符,当然,双引号或者三引号也可以作为定界符,并且其三者可互相嵌套。

字符串的不可变性使得系列操作不能直接对其进行元素添加、删除或者修改。同样,“切片”操作对其关于更改字符串操作都无效。

(1)字符串编码格式

Python3.x完全支持中文字符,默认使用UTF-8编码格式。注意在UTF-8中数字,字母,符号都被看作是一个字符。

字符串编码格式首先一个就是“ASCII码”(美国标准信息交换码),ASCII码仅对10个数字、26个字母大小写和其他符号进行了格式编码,并且采用单字节形式编码,局限性大。”UIF-8”编码范围广,对全世界所有国家需要用的字符进行了编码字节表示不统一,其中,以单字节表示英文字符,以3个字节表示中文汉字。另外的,GB2312,GBK和CP936编码都是采用两个字节表示中文汉字。

(2)字符串判断

判断某变量是否是字符串,可以使用内置方法isinstance()或type(),Python支持Unicode编码的str类型,还支持字节串类型bytes,二者可通过encode()和decode()方法在str和bytes两种类型进行转化。

>>> type('新年快乐,兄弟们!')

>>> type('虎年大吉大利'.encode('gbk'))

>>> isinstance('拜年',str)
True
>>> type('虎年大吉大利'.encode('gbk')) == bytes
True

二、“字符串”多样化展示 

(1)转义字符

转义字符,用来解释具体含义,相当于特殊引用。

(在行尾时)续行符
\单个反斜杠符号
'单引号
"双引号
a响铃
b退格(Backspace)
e转义
00
n换行
v纵向制表符
t横向制表符
r回车
f换页
oyy八进制数,y 代表 0~7 的字符,例如:12 代表换行。
xyy十六进制数,以 x 开头,yy代表的字符,例如:x0a代表换行
other其它的字符以普通格式输出

通过下面代码段联系用法:

>>> print('41110u5656x41')
!H噖A
>>> print('\'thellonworld'')
'      hello
world'

 为避免对字符串中的转义字符进行转义,可使用原始字符串操作:

>>> path = r'C:Users86138Desktop'
>>> print(path)
C:Users86138Desktop
'''在字符串前加上R或者r表示原始字符串,不发生转义'''

(2)格式化字符串

格式化形式: ' % [-] [+] [0] [m] [.n] 格式字符 ' % expression 

%: 第一个为格式标志,表示格式化开始,第二个是格式化运算符;

[-] [+]: 前者指定左对齐,后者对正数加正号;

[0]:指定空位处填0;

[m] [.n]: 前者指定最小宽度格式,后者指定格式精度;

格式字符为格式操作的类型,expression为待转换的表达式。

常用的格式字符:

 通过下面代码段联系用法:

>>> sum = 521 + 678
>>> print('%6x'%sum)
   4af
>>> print('%8.3g'%(26.2+61.4))
    87.6
>>> '%d,%c'%(65,67)
'65,C'
>>> '%e'%1235
'1.235000e+03'

对于格式化字符串,也可采用format()的方法:

基本格式为:"{ } { }".format(" str1 ", " str2 ")

{ }为插入位置,可添加顺序 {0},表示第一个操作对象,其中可添加格式符{0:.3f}表示格式化为3位小数。

格式符有:b转化为二进制形式、c整数形式转化为Unicode字符、d转化为十进制形式、o转化为八进制形式、x转换为(小写,大写为X)十六进制形式、e/E转化为科学计数法形式、%转化为固定长度浮点百分数形式、f/F转化为固定长度浮点数形式。

通过下面代码段联系用法:

>>> print('{1:0.3f}匹配第二对象,匹配第一对象{0:%}'.format(62-11.2,15.3+22))
37.300匹配第二对象,匹配第一对象5080.000000%
>>> position = (5,8,13)
>>> print('x:{0[0]};y:{0[1]};z:{0[2]}'.format(position))
x:5;y:8;z:13

三、字符串常量

Python标准库string提供了英文字母大小写形式、数字字符、标点符号等常量,可以直接使用。

'''字符串常量,随机生成五位字母密码'''
>>> number = string.ascii_letters
>>> number
'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'
>>> num = ' '.join((random.choice(number) for i in range (5)))
>>> num
'w w W v J'

格式化的字符串常量:

>>> width = 12
>>> precision = 5
>>> value = 11/3
>>> f'result:{value:{width}.{precision}}'
'result:      3.6667'

四、字符串常见操作

 Python提供了大量内置函数和运算符来支持字符串的操作,但所有这些都需保持字符串不可变性的原则。字符串对象提供的涉及字符串更改的方法都是无效的。

对于字符串常见操作,通过下面代码段来展示:

(1)find()方法查找对象字符串在目标字符串指定范围(默认为整个字符串)首次出现的位置,不存在返回-1,rfind()则相反,查找最后一次出现位置。

>>> combi = 'a,b,c,d,e,f'
>>> combi.find('c')
4
>>> combi.rfind('c',6)
-2
'''find可指定范围find('对象',start,end)'''

(2)index()方法用来返回一个对象字符串在目标字符串指定范围中首次出现的位置,不存在抛出异常,rindex()方法相反同上。

>>> indexs = 'as,bs,cs,ds,es'
>>> indexs.index('bs')
3
>>> indexs.count('s')
5        '''count()方法可统计对象字符串在目标字符串中出现的次数'''

(3)split()方法用于指定分隔符,从正端(左端)开始分隔字符串,并以列表形式返回分隔结果,rsplit则从反向分隔。若未指定分隔符,一般情况下,会将空格、换行符、制表符等都认定为分隔符。

>>> stringone = 'I,am,li,xiao,hua!'
>>> stringone.split(',')
['I', 'am', 'li', 'xiao', 'hua!']
>>> stringone.split(',',maxsplit=3)
['I', 'am', 'li', 'xiao,hua!']
'''split()方法中maxsplit允许指定最大分隔次数'''

(4)upper()、lower()、capitalize()、title()、swapcase()分别可将字符串转化为大写形式、小写形式、字符串首字母大写形式、字符串内单词首字母大写形式、大小写翻转形式。另外,python也提供了一些判断形式方法,isupper()、islower()、isspace()等等,从字面意思就可以理解。

在这里仅提到上面一些操作字符串对象的方法,还有join()、partition()、startwith()、maketrans()等等,感兴趣可以自行查阅资料。

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/726220.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号