我通常以这种方式使用数十GB的数据,例如,我在磁盘上有通过查询读取的表,创建数据并追加回去。
值得阅读文档以及该线程的后期内容,以获取有关如何存储数据的一些建议。
将影响你存储数据方式的详细信息,例如:
尽可能多地提供详细信息;我可以帮助你建立结构。
- 数据大小,行数,列数,列类型;你要追加行还是仅追加列?
- 典型的操作将是什么样的。例如,对列进行查询以选择一堆行和特定的列,然后执行一个操作(在内存中),创建新列并保存。
(提供一个玩具示例可以使我们提供更具体的建议。) - 处理完之后,你该怎么办?步骤2是临时的还是可重复的?
- 输入平面文件:大约总大小(以Gb为单位)。这些是如何组织的,例如通过记录?每个文件都包含不同的字段,还是每个文件都有一些记录,每个文件中都有所有字段?
- 你是否曾经根据条件选择行(记录)的子集(例如,选择字段A> 5的行)?然后执行某些操作,还是只选择包含所有记录的字段A,B,C(然后执行某些操作)?
- 你是否“工作”所有列(成组),或者有很大一部分可以仅用于报告(例如,你想保留数据,但无需明确地拉入该列,直到最终结果时间)?



