栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

Pytorch Load Dataset 多线程加载读取数据

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

Pytorch Load Dataset 多线程加载读取数据

Pytorch Load Dataset 多线程加载读取数据

单线程读取数据时

以agnews dataset为例,num_worker=1时读取时间如下:

Load Test Data Spends 12.183895587921143 seconds
Load Test Data Spends 200.42685055732727 seconds

DataLoader(dataset, num_workers=2,collate_fn=collate_fn)时

Load Test Data Spends 11.577017307281494 seconds
Load Train Data Spends 199.58622908592224 seconds

DataLoader(dataset, num_workers=4,collate_fn=collate_fn)时

Load Test Data Spends 11.68491816520691 seconds
Load Train Data Spends 183.27479600906372 seconds

DataLoader(dataset, num_workers=8,collate_fn=collate_fn)时

Load Test Data Spends 11.205335140228271 seconds
Load Train Data Spends 183.1354115009308 seconds

此时限制为GPU,CPU加载的矩阵 → rightarrow →GPU流水线。流水线处理时间是定死的。

GPU多卡:

  • 真2014

    多个GPU一起处理2014条数据。

  • 假1024

    多块GPU按块各处理总数据的一部分,最后汇总算loss平均值

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/619256.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号