read_csv可以
encoding选择处理不同格式的文件。我主要使用
read_csv('file', encoding = "ISO-8859-1"),或者替代地encoding = "utf-8"阅读,并且通常
utf-8用于
to_csv。
您还可以使用而不是的多个
alias选项
'latin'之一'ISO-8859-1'(请参阅python docs,也可能会遇到许多其他编码)。
请参阅相关的
Pandas文档, 有关
csv文件的
python文档示例以及有关SO的大量相关问题。一个好的背景资源是每个开发人员应该了解的
unipre和字符集。
要检测编码(假设文件包含非ASCII字符),可以使用enca(请参见手册页)或
file -i(linux)或
file -I(osx)(请参见手册页)。



