“”"
正则表达式是一种可以让一些复杂的字符串问题变得简单的工具
“”"
1)re 模块:
fullmatch(正则表达式, 字符串) - 判断字符串是否满足正则表达式的规则
python提供正则表达式的方法: 提供一个字符串, 字符串内容是一个正则表达式, 这个字符串的最前面需要加r
python的正则表达式: r’正则’
js的正则表达式:/正则/
oc的正则表达式:“正则”
2)正则语法内容
包括: 匹配类符号、控制次数的符号、分组和分支、检测类符号、阻止转义
1)普通符号(字符) """ 在正则表达式表示字符本身的符号就是普通符号(除了特殊符号以外都是普通符号) """ from re import fullmatch # r'abc' - 表示一个字符串有三个字符, 分别是a、b和c result = fullmatch(r'abc', 'abc') print(result) 2) . - 匹配任意一个字符 r'.bc' - 表示一个字符串,有3个字符,第一个字符是任意字符,第2个和第3个分别是b和c result = fullmatch(r'.bc', '+bc') print(result) result = fullmatch(r'x..y', 'x-8y') print(result) 3) d - 匹配任意一个数字字符 result = fullmatch(r'xdy', 'x3y') print(result) 4) s - 匹配任意一个空白字符 # 空白字符: 空格、t、n result = fullmatch(r'xsy', 'x y') print(result) 5) D - 匹配任意一个非数字字符 result = fullmatch(r'xDy', 'xMy') print(result) 6) S - 匹配任意一个非空白字符 result = fullmatch(r'xSy', 'xay') print(result) 7) [字符集] - 匹配字符集中的任意一个字符 """ [mnab] - 匹配m,n,a,b [dmn] - 匹配任意数字,m,n [ds] - 匹配任意数字或者任意空 [a-z] - 匹配任意一个小写字母 [1-9] - 匹配1到9中任意数字 [1-5a-z] - 匹配数字1-5或者任意小写字母 [A-Za-z] - 匹配任意一个字母 [u4e00-u9fa5] - 匹配任意一个中文 """ result = fullmatch(r'[u4e00-u9fa5][u4e00-u9fa5]', '饕餮') print(result) 8) [^字符集] - 匹配不在字符集中的任意一个字符 result = fullmatch(r'x[^u4e00-u9fa5]y', 'xsy') print(result)2.控制次数的符号
控制次数的符号的用法: 匹配类符号次数
1.* - 任意次数(0或者多次)""" a* - a出现0次或者多次 d* - d出现0次或者多次(任意数字出现0次或者多次) [abc]* - [abc]出现0次或者多次 """ print(fullmatch(r'xa*y', 'xy'))2. + - 至少一次(1次或者多次)
print(fullmatch(r'xa+y', 'xy')) # None print(fullmatch(r'xa+y', 'xaaaay')) print(fullmatch(r'x[u4e00-u9fa5]+y', 'x函数y'))3. ? - 0次或者1次
print(fullmatch(r'[+-]?[1-9]dd', '810')) print(fullmatch(r'❤?xy', '❤xy'))4. {}
“”"
{N} - N次
{M,N} - M到N次
{M,} - 至少M次
{,N} - 最多N次
“”"
print(fullmatch(r'1[3-9]d{9}', '13892839283'))
# 练习:写一个正则表达式可以匹配任意一个整数字符串
# 123、23、1、+23、-23、100 - 合法
# 0002、23s、+-23、01 - 不合法
print(fullmatch(r'[+-]?[1-9]d*', '+23'))
4. 贪婪和非贪婪模式
在匹配次数不确定的时候, 匹配次数有贪婪和非贪婪两种模式
“”"
贪婪
默认是贪婪模式: *、+、{M,N}、{M,}、{,N}
贪婪模式:如果多种匹配次数都可以匹配成功,最后取最大的次数进行匹配
非贪婪
默认是贪婪模式: *?、+?、{M,N}?、{M,}?、{,N}?
“”"
# 贪婪
print(search('a.+b', '挨罚会发布awdsbsadab法防b')) # 'awdsbsadab法防b'
# 非贪婪
print(search('a.+?b', '挨罚会发布awdsbsadab法防')) # awdsb
3.分组和分支
1.分组 - ()
“”"
1)整体操作:将正则的一部分用()括起来表示一个分组,然后整体控制次数
2)重复匹配结果: 在正则中用()添加分组,然后在正则用M来重复前面第M个分组的匹配结果
3)捕获:findall函数在正则表达式中有分组的时候, 只获取分组匹配到的结果
“”"
# 1) 整体操作
print(fullmatch(r'([a-z]{2}d{2})+', 'an12an12fan12a'))
# 2) 重复匹配结果
# ab263mn263、abc009mn009
print(fullmatch(r'abc(d{3})mn1', 'abc800mn800'))
print(fullmatch(r'abc(d{3})mn1', 'abc800mn801')) # None
# am622-622am、 mk293-293mk
print(fullmatch(r'([a-z]{2})(d{3})-21', 'mk293-293mk'))
# 3)捕获
str1 = 'w85Fafafa案发时a923afs282'
result = findall(r'[a-zA-z](d+)', str1)
print(result) # ['85', '923', '282']
2.分支 - /
“”"
正则1|正则2|正则3|…
“”"
print(fullmatch(r'abc(d{2}|[A-Z]{2})', 'abcKS'))
4.检测类符号
1.检测类符号 - 检测符号所在的位置是否符合条件(必须是在匹配成功前提下才检测)
1) 单词边界 - b
"""
检测b所在的位置是否是单词边界。
单词边界:凡是可以将两个单词区分开的符号都是单词边界,比如: 字符串开头、字符串结尾、空白字符、标点符号
注意: 检测类符号不影响字符串长度
"""
result = findall(r'd{2}b', '检测26类符号不影28 响字符串sda22长18度13;23')
print(result)
result = fullmatch(r'abc,b123', 'abc,123')
print(result)
2)检测字符串开头 - ^
3)检测字符串结尾 - $
result = findall(r'^d{2}', '78检测26类符号不影28 响字符串sda22长18度13;23')
print(result)
result = findall(r'd{2}$', '78检测26类符号不影28 响字符串sda22长18度13;23')
print(result)
5.转义字符
1.转义符号
在正则中本身具备特殊功能或者特殊意义的符号前加’’,让它的功能消失,变成普通符号
print(fullmatch(r'dd.dd', '12.34')) print(fullmatch(r'd+d', '2+4')) print(fullmatch(r'abc\d', 'abcd'))
- []也可以独立存在有特殊意义的符号功能消失
+、*、?、.、^、$等 print(fullmatch(r'dd[.+*?]$^]dd-', '12]34')) 注意: ^和-在[]中的意义6.re模块
1.re模块中常用的函数及其功能
from re import fullmatch, match, search, findall, finditer, sub
“”"
fullmatch(正则, 字符串) - 判断整个字符串是否正则描述的规则,如果不满足结果是None
match(正则, 字符串) - 匹配字符串开头;如果不匹配返回None,否则返回匹配对象
search(正则, 字符串) - 在整个字符串中查找第一个满足正则表达式的字串,如果找不到返回None,否则返回匹配对象
findall(正则, 字符串) - 获取整个字符串中所有满足正则的字串,返回一个列表
finditer(正则, 字符串) - 获取整个字符串中所有满足正则的字串,返回一个迭代器,迭代器中的元素是匹配对象
sub(正则, 字符串, 字符串2) - 将字符串2中所有满足正则的子串全部替换成字符串1
“”"
print(fullmatch(r'd{3}', '123'))
print(match(r'd{3}', '123阿萨法防545asfa'))
print(search(r'd{3}', '阿萨法防545a法法萨芬撒sfa'))
print(findall(r'd{3}', '阿萨法防545asf法法萨芬撒a'))
利用正则表达式完成下面的操作:
一、不定项选择题
能够完全匹配字符串"(010)-62661617"和字符串"01062661617"的正则表达式包括( A,D)
A.r"(?d{3})?-?d{8}"
B. r"[0-9()-]+"
C.r"[0-9(-)]*d*"
D.r"[(]?d*[)-]*d*"
能够完全匹配字符串"back"和"back-end"的正则表达式包括(A, B, C, D)
A. r'w{4}-w{3}|w{4}'
B. r'w{4}|w{4}-w{3}'
C.r'S+-S+|S+'
D. r'w*b-bw*|w*'
能够完全匹配字符串"go go"和"kitty kitty",但不能完全匹配“go kitty”的正则表达式包括(ACD)
A.r 'b(w+)bs+1b'
B. r'w{2,5}s*1'
C. r'(S+) s+1'
D.r'(S{2,5})s{1,}1'
能够在字符串中匹配"aab",而不能匹配"aaab"和"aaaab"的正则表达式包括(B )
A. r"a*?b"
B. r"a{,2}b"
C. r"aa??b"
D. r"aaa??b"
1.用户名匹配
要求: 1.用户名只能包含数字 字母 下划线
2.不能以数字开头
3.⻓度在 6 到 16 位范围内
str1 = input('请输入用户名')
print(fullmatch(r'((a-zA-Z)+|[-]+[0-9]+|(a-zA-Z)+|[-]+){6,16}'))
- 密码匹配
要求: 1.不能包含!@#¥%^&*这些特殊符号
2.必须以字母开头
3.⻓度在 6 到 12 位范围内
str1 = input('请输入密码')
print(fullmatch(r'([a-zA-Z]+[^!@#¥%^&*]*.){6}'))
- ipv4 格式的 ip 地址匹配
提示: IP地址的范围是 0.0.0.0 - 255.255.255.255
ip = '3.3.3.5'
print(fullmatch(r'((d|[0-9]d|1d{2}|2[0-4]d|25[0-5]).){3}(d|[0-9]d|1d{2}|2[0-4]d|25[0-5])', ip))
- 提取用户输入数据中的数值 (数值包括正负数 还包括整数和小数在内) 并求和
例如:“-3.14good87nice19bye” =====> -3.14 + 87 + 19 = 102.86
str1 = '-3.14good87nice19bye' print(sum(eval(x) for x in re.findall(r'[+-]?d+?.?d+', str1)))
验证输入内容只能是汉字
str1 = input('请输入汉字')
print(fullmatch(r'[u4e00-u9fa5]', str1))
匹配整数或者小数(包括正数和负数)
str1 = '-3.14good87nice19bye' print(fullmatch(r'[+-]?(0|[1-9]d+).?d*', str1))
验证输入用户名和QQ号是否有效并给出对应的提示信息
要求:
用户名必须由字母、数字或下划线构成且长度在6~20个字符之间
QQ号是5~12的数字且首位不能为0
str1 = input('请输入用户名')
str2 = input('请输入密码')
if fullmatch(r'[a-zA-Z0-9_]{6,20}', str1):
print('输入正确')
else:
print('输入错误')
if fullmatch(r'[1-9][0-9]{4,11}', str2):
print('输入正确')
else:
print('输入错误')
拆分长字符串:将一首诗的中的每一句话分别取出来
poem = ‘窗前明月光,疑是地上霜。举头望明月,低头思故乡。’
poem = '窗前明月光,疑是地上霜。举头望明月,低头思故乡。' print(re.split(r'[,。]', poem))



