2.检查是否显存不足 尝试修改训练的batch size 修改到最小依旧无法解决 然后使用如下命令实时监控显存占用情况
watch -n 0.5 nvidia-smi
未调用程序时 显存占用的情况为
因此问题在于 程序指定了使用四块GPU 调用前面两块资源的时候是没有问题的 但是第三块被其他小伙伴的程序占用 因此报错。
3. 指定使用的GPU
device torch.device( cuda if torch.cuda.is_available() and not args.no_cuda else cpu ) # cuda 指定使用GPU设备 model torch.nn.DataParallel(model, device_ids [0, 1, 3]) # 指定多GPU并行处理时使用的设备编号
这样就愉快的跑起来了



