栏目分类:
子分类:
返回
名师互学网用户登录
快速导航关闭
当前搜索
当前分类
子分类
实用工具
热门搜索
名师互学网 > IT > 软件开发 > 后端开发 > Python

OSError: (External) Nccl error, unhandled cuda error (at /paddle/paddle/fluid/platform/collective

Python 更新时间: 发布时间: IT归档 最新发布 模块sitemap 名妆网 法律咨询 聚返吧 英语巴士网 伯小乐 网商动力

OSError: (External) Nccl error, unhandled cuda error (at /paddle/paddle/fluid/platform/collective

最近使用Paddle运行多卡程序的时候,出现了下面的错误:

Traceback (most recent call last):
  File "train_pairwise.py", line 238, in 
    do_train()
  File "train_pairwise.py", line 116, in do_train
    paddle.distributed.init_parallel_env()
  File "/root/anaconda3/lib/python3.7/site-packages/paddle/distributed/parallel.py", line 196, in init_parallel_env
    parallel_helper._init_parallel_ctx()
  File "/root/anaconda3/lib/python3.7/site-packages/paddle/fluid/dygraph/parallel_helper.py", line 42, in _init_parallel_ctx
    __parallel_ctx__clz__.init()
OSError: (External)  Nccl error, unhandled cuda error  (at /paddle/paddle/fluid/platform/collective_helper.cc:100)
解决方法

我的cuda是10.2的 ,paddle版本是2.1.3

apt-get install libnccl2=2.5.6-1+cuda10.2 libnccl-dev=2.5.6-1+cuda10.2
find / -name "libnccl.so*"
ln -s /usr/lib/x86_64-linux-gnu/libnccl.so.2.5.6 /usr/local/bin/libnccl.so
export LD_LIBRARY_PATH=/usr/local/bin/:$LD_LIBRARY_PATH
参考文献

[1].OSError: (External) Nccl error, unhandled cuda error (at /paddle/paddle/fluid/platform/collective_helper.cc:100). https://issueexplorer.com/issue/PaddlePaddle/PaddleDetection/4139

转载请注明:文章转载自 www.mshxw.com
本文地址:https://www.mshxw.com/it/619326.html
我们一直用心在做
关于我们 文章归档 网站地图 联系我们

版权所有 (c)2021-2022 MSHXW.COM

ICP备案号:晋ICP备2021003244-6号