在进行神经网络模型训练时,如果 手动停止训练模型,可能会出现进程卡死, 无法退出的问题。尤其是利用多个GPU进行 分布式训练时,往往会涉及到多个 python进程。
为停止训练,需要结束进程,输入以下命令即可:
fuser -v /dev/nvidia*^C
ps x |grep python|awk '{print $1}'|xargs kill

为停止训练,需要结束进程,输入以下命令即可:
fuser -v /dev/nvidia*^C
ps x |grep python|awk '{print $1}'|xargs kill