动手学深度学习V2.0(Pytorch)——35. 分布式训练

Python 更新时间：2026-05-21 17:00:18 发布时间：1551天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

文章目录

P1 课件讲解 P2 Q&A

2.1 分布式的目的也是和data parallel一样提升计算速度吗？为什么不能只用data parallel就解决这个问题呢，是因为分布式多了一些通信技术吗？ 2.2 每个参数服务器求完梯度之后，还要汇总到一个主服务器，再分发给各个参数服务器，然后再传给计算节点吗？ 2.3 为什么batchsize越大，训练有效性反而越低，训练有效性曲线是降低的 2.4 在分布式集群进行训练时，为什么计算和通讯可以同时进行？单机上不是要等梯度算完，传到参数服务器上，等所有梯度集合更新后，才能拿到下一个新的模型参数吗？ 2.5 分布式使用多个GPU相当于增大batch_size，一般是不是batch_size超过2048是不是就不好了呀？那为什么还要用分布式？是为了训练大模型？batch_size可以加到几千几万？

P1 课件讲解

https://www.bil

转载请注明：文章转载自 www.mshxw.com

本文地址：https://www.mshxw.com/it/740490.html

上一篇 YOLOv5实战口罩识别项目-分割数据和训练数据

下一篇【回眸】Linux内核（二）对文件的操作（创建、写入、关闭）

Python相关栏目本月热门文章

关于我们文章归档网站地图联系我们