系统和环境安装过程遇到问题
由于项目需要,使用 tensorflow 进行训练,linux用的不太惯,最后又基于window搞了一下。
系统和环境这里需要注意一下,python、tensorflow和cuda版本要匹配,否则不能使用 gpu 进行加速。
对于 tensorflow 计算,cpu 跟 gpu 速度可以说是天差地别了!!!
查看版本匹配:tensorflow
系统:win10
显卡:NVIDIA GTX1060
python:3.7.9
pip:22.0.3
Tensorflow:2.3.0
Tensorflow-gpu:2.3.0 (开启GPU必备)
CUDA:10.2
CUDNN:7.6
python和pip就不做介绍了,网上一堆教程。这里使用 pip 安装,为提高安装速度,使用清华镜像源。
注意:tensorflow 和 tensorflow-gpu 需要配套。
pip install tensorflow==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple pip install tensorflow-gpu==2.3.0 -i https://pypi.tuna.tsinghua.edu.cn/simple遇到问题
python、pip、tensorflow 这些安装基本不会有什么问题。
我遇到的问题是,虽然可以使用 tensorflow 进行计算,但是无法使用 gpu 加速。
网上搜了很久,都没提到点子上,后来偶然发现需要本机安装 CUDA 和 CUDNN,而且需要版本匹配才可以!
错误:
tensorflow提示:tf.test.is_gpu_available: False
failed to query event: CUDA_ERROR_LAUNCH_FAILED
Could not load dynamic library ‘cudart64_110.dll‘; dlerror: cudart64_110.dll
网上的博客,基本都是什么显卡问题、NVIDIA设置问题、环境版本匹配问题等,尝试无果。
解决办法:
笔者的问题是,本机没有安装 CUDA 和 CUDNN。本来以为 tensorflow 会自动调用显卡 gpu的,后来发现需要安装驱动,按 此博客 安装了 CUDA 和 CUDNN 问题解决。
下载地址:CUDA10.2 和 CUDNN7.6 提取码:qfor
不出意外的话,再次使用 tensorflow 则可以使用 gpu 进行加速了。
补充一下:
还遇到个奇怪问题,每次使用 gpu 加速的时候,运行几秒程序就会强制退出或者直接就卡死。
CUDA运行时错误 — CUDA_ERROR_LAUNCH_FAILED: unspecified launch failure
Error polling for event status: failed to query event: CUDA ERROR ILLEGAL INSTRUCTION
could not create cudnn handle: CUDNN_STATUS_INTERNAL_ERROR
没有找到具体原因,最后是更新了 tensorflow 和 tensorflow-gpu (2.3.0) 以及 CUDA (10.1) 和 CUDNN(7.6) 这个问题就消失了。
参考博客:
为什么tf.test.is_gpu_available()返回为false?
tf.test.is_gpu_available()报错false的解决方案
windows10下tensorflow-gpu运行问题记录
win10下CUDA和CUDNN的安装
Could not load dynamic library ‘cudart64_110.dll‘; dlerror: cudart64_110.dll



