- group:进程组。默认情况下,只有一个组,一个 job 即为一个组,也即一个 world,当我们使用多进程的时候,一个 group 就有了多个 world。当需要进行更加精细的通信时,可以通过 new_group 接口,使用 word 的子集,创建新组,用于集体通信等。
- world:全局进程个数。
- rank:表示进程序号,用于进程间通信,可以用于表示进程的优先级。我们一般设置 rank=0 的主机为 master 节点。
- local_rank:进程内 GPU 编号,非显式参数,由 torch.distributed.launch 内部指定。比方说, rank=3,local_rank=0 表示第 3 个进程内的第 1 块 GPU。
参考:PyTorch 多进程分布式训练实战 | 拾荒志



