栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 面试经验 > 面试问答

numpy数组最快的保存和加载选项

面试问答 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

numpy数组最快的保存和加载选项

对于真正的大型阵列,我听说过几种解决方案,它们大多是对I / O懒惰:

  • NumPy.memmap,将大数组映射为二进制形式
    • 优点:
    • 除Numpy外没有其他依赖项
    • 透明替换
      ndarray
      (任何接受ndarray的类都接受
      memmap
    • 缺点:
    • 您的阵列块限制为2.5G
    • 仍然受Numpy吞吐量限制
  • 将Python绑定用于HDF5(一种支持大数据的文件格式,如PyTables或h5py)

    • 优点:
    • 格式支持压缩,索引和其他超好功能
    • 显然,最终的PetaByte大文件格式
    • 缺点:
    • 学习曲线的层次结构?
    • 必须定义您的性能需求(请参阅下文)
    • Python的酸洗系统(出于种族,而不是为了速度而提及)

    • 优点:

    • 这是Pythonic!(哈哈)
    • 支持各种物体
    • 缺点:
    • 可能比其他对象慢(因为针对任何对象而不是数组)

Numpy.memmap

从NumPy.memmap的文档中:

创建到存储在磁盘上的二进制文件中的数组的内存映射。

内存映射文件用于访问磁盘上大文件的小片段,而无需将整个文件读入内存

memmap对象可以在接受ndarray的任何地方使用。给定任何memmap

fp
isinstance(fp, numpy.ndarray)

返回True。


HDF5阵列

从h5py文档

使您可以存储大量的数值数据,并轻松地从NumPy处理该数据。例如,您可以将磁盘上存储的多TB数据集切片,就像它们是真实的NumPy数组一样。数千个数据集可以存储在一个文件中,可以根据需要进行分类和标记。

该格式支持以各种方式压缩数据(为同一I / O读取加载更多位),但这意味着数据变得不那么容易单独查询,但在您的情况下(纯加载/转储数组),它可能会有效



转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/638191.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号