你们中的某些人可能会遇到这种情况:我无法使用数据存储区的导入/导出实用程序,因为在进入数据存储区之前,我的数据需要进行转换。
我最终使用 apache-beam
(谷歌云数据流)。
您只需要编写几行“光束”代码即可
- 读取您的数据(例如托管在云存储上)-您会得到一个
PCollection
字符串, - 进行所需的任何转换(以便获得
PCollection
数据存储区实体), - 将它们转储到数据存储接收器。
我能够以5位工作者的速度每秒800个实体写入我的数据存储区。这使我能够在大约5个小时内完成导入任务(有1600万行)。如果您想使其更快,请使用更多的工人:D



