如果您使用的是python,建议您仅在使用所有有效预期分隔符的行上调用re.split:
>>> l = "big long list of space separated words">>> re.split(r'[ ,|;"]+', l)['big', 'long', 'list', 'of', 'space', 'separated', 'words']
唯一的问题是其中一个文件是否使用分隔符作为数据的一部分。
如果必须标识分隔符,最好的办法是计算除空格以外的所有内容。如果几乎没有出现,则可能是空格,否则,是映射字符的最大值。
不幸的是,确实没有办法确定。您可能有用逗号隔开的空格分隔数据,或者| 用分号填充的分离数据。它可能并不总是有效。



