完整的文档在这里,一些食谱策略在这里
PyTables是面向行的,因此您只能追加行。逐段阅读csv,然后在整个过程中附加整个框架,如下所示:
store = pd.HDFStore('file.h5',mode='w')for chunk in read_csv('file.csv',chunksize=50000): store.append('df',chunk)store.close()您必须要小心一点,因为在逐块读取时,结果框架的dtypes可能具有不同的dtypes,例如,您有一个像column这样的整数,直到第二个chunkchunk之前都没有缺失值。第一个块的该列为
int64,第二个块的为
float64。您可能需要使用
dtype关键字to强制dtypes
read_csv,请参见此处。
这也是一个类似的问题。



