栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

动手学深度学习V2.0(Pytorch)——35. 分布式训练

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

动手学深度学习V2.0(Pytorch)——35. 分布式训练

文章目录

P1 课件讲解 P2 Q&A

2.1 分布式的目的也是和data parallel一样提升计算速度吗?为什么不能只用data parallel就解决这个问题呢,是因为分布式多了一些通信技术吗? 2.2 每个参数服务器求完梯度之后,还要汇总到一个主服务器,再分发给各个参数服务器,然后再传给计算节点吗? 2.3 为什么batchsize越大,训练有效性反而越低,训练有效性曲线是降低的 2.4 在分布式集群进行训练时,为什么计算和通讯可以同时进行?单机上不是要等梯度算完,传到参数服务器上,等所有梯度集合更新后,才能拿到下一个新的模型参数吗? 2.5 分布式使用多个GPU相当于增大batch_size,一般是不是batch_size超过2048是不是就不好了呀?那为什么还要用分布式?是为了训练大模型?batch_size可以加到几千几万?

P1 课件讲解

https://www.bil

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/740490.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号