你的
''.join()表达式正在过滤,删除任何非ASCII的内容;你可以改用条件表达式:
return ''.join([i if ord(i) < 128 else ' ' for i in text])
这将一个接一个地处理字符,每个替换字符仍将使用一个空格。
你的正则表达式应仅将连续的非ASCII字符替换为空格:
re.sub(r'[^x00-x7F]+',' ', text)
注意
+那里。

你的
''.join()表达式正在过滤,删除任何非ASCII的内容;你可以改用条件表达式:
return ''.join([i if ord(i) < 128 else ' ' for i in text])
这将一个接一个地处理字符,每个替换字符仍将使用一个空格。
你的正则表达式应仅将连续的非ASCII字符替换为空格:
re.sub(r'[^x00-x7F]+',' ', text)
注意
+那里。