# 常见的断句标点 text = '小明说:"我将来想成为科学家."' punc = """,.?!;: 、|,。?!;:《》「」【】/<>|“ ”‘ ’""" punc_re = '|'.join(re.escape(x) for x in punc) tokens = re.sub(punc_re, lambda x: ' ' + x.group() + ' ', text) tokens = tokens.split()
结果:
[‘小明说’, ‘:’, ‘"’, ‘我将来想成为科学家’, ‘.’, ‘"’]



