import reregex = ur"[P] (.+?) [/P]+?"line = "President [P] Barack Obama [/P] met Microsoft founder [P] Bill Gates [/P], yesterday."person = re.findall(regex, line)print(person)
产量
['Barack Obama', 'Bill Gates']
regex
ur"[u005B1Pu005D.+?u005Bu002FPu005D]+?"与unipre完全相同,
u'[[1P].+?[/P]]+?'但难于阅读。
第一个括号组
[[1P]告诉重新任何列表中的字符
['[', '1', 'P']应匹配,并且同样与第二组括号
[/P]]。那你想什么都不要。所以,
- 卸下外围的方括号。(也除去杂散
1
前面P
。) - 为了保护其中的文字括号
[P]
,请使用反斜杠将其转义:[P]
。 - 要仅返回标签内的单词,请将分组括号放在周围
.+?
。



