P1 课件讲解 P2 Q&A
2.1 分布式的目的也是和data parallel一样提升计算速度吗?为什么不能只用data parallel就解决这个问题呢,是因为分布式多了一些通信技术吗? 2.2 每个参数服务器求完梯度之后,还要汇总到一个主服务器,再分发给各个参数服务器,然后再传给计算节点吗? 2.3 为什么batchsize越大,训练有效性反而越低,训练有效性曲线是降低的 2.4 在分布式集群进行训练时,为什么计算和通讯可以同时进行?单机上不是要等梯度算完,传到参数服务器上,等所有梯度集合更新后,才能拿到下一个新的模型参数吗? 2.5 分布式使用多个GPU相当于增大batch_size,一般是不是batch_size超过2048是不是就不好了呀?那为什么还要用分布式?是为了训练大模型?batch_size可以加到几千几万?
P1 课件讲解https://www.bil



