GPU-server驱动以及相关环境安装

概念

GPU：图像处理器

CUDA：NVIDIA推出的用于自家GPU的并行计算框架（也就是说CUDA只能在NVIDIA的GPU上运行，而且只有当要解决的计算问题是可以大量并行计算的时候才能发挥CUDA的作用）

Anaconda：Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行package和environment的管理，并且已经包含了Python和相关的配套工具

apt-get remove --purge nvida-* *号为已安装的GPU驱动版本版本号

chmod +x NVIDIA-Linux-x86_64-375.66.run

sudo ./NVIDIA-Linux-x86_64-375.66.run

安装过程中

mkds相关选择 No
32bit compatible libraries 选择 Yes
xconfig 更新选择 Yes
其他默认就OK

安装完成后执行 nvidia-smi可验证是否成功

./NVIDIA-Linux-x86_64-465.31.run --no-opengl-files

检查驱动是否安装成功

nvidia-smi

安装cuda

下载runfile：https://developer.nvidia.com/cuda-10.0-download-archive?target_os=Linux&target_arch=x86_64&target_distro=Ubuntu&target_version=1604&target_type=runfilelocal

apt-get install linux-headers-$(uname -r)

安装：./cuda_10.0.130_410.48_linux.run

接受条款：accept
安装驱动？ no
安装toolkit？yes
路径等……
安装测试用例？yes

不需要回答这些问题的方法是

./cuda_10.0.130_410.48_linux.run --silent --toolkit --samples --samplespath=/usr/local/cuda/

如果安装结束有

cuda:Missing recommended library: libGLU.so,libX11.so,libXi.so,libXmu.so

执行

apt-get install freeglut3-dev build-essential libx11-dev libxmu-dev libxi-dev libgl1-mesa-glx libglu1-mesa libglu1-mesa-dev

再执行

./cuda_10.0.130_410.48_linux.run

完成之后，执行

ls /dev/nvidia*

如果没有/dev/nvidia-uvm，进行下一步

 vim /etc/rc.local

它应该是空的(除了一行又一行的#注释项外)。这文件的第一行是
#!/bin/sh -e
把-e去掉（这步很重要，否则它不会加载这文本的内容）
然后把内容复制到其中，(before exit 0 )保存退出。

/sbin/modprobe nvidia

if [ "$?" -eq 0 ]; then
#Count the number of NVIDIA controllers found.
NVDEVS=`lspci | grep -i NVIDIA`
N3D=`echo "$NVDEVS" | grep "3D controller" | wc -l`
NVGA=`echo "$NVDEVS" | grep "VGA compatible controller" | wc -l`

N=`expr $N3D + $NVGA - 1`
for i in `seq 0 $N`; do
mknod -m 666 /dev/nvidia$i c 195 $i
done

mknod -m 666 /dev/nvidiactl c 195 255

else
exit 1
fi

/sbin/modprobe nvidia-uvm

if [ "$?" -eq 0 ]; then
#Find out the major device number used by the nvidia-uvm driver
D=`grep nvidia-uvm /proc/devices | awk '{print $1}'`

mknod -m 666 /dev/nvidia-uvm c $D 0
else
exit 1
fi

（此时再执行ls /dev/nvidia* 也不会出现/dev/nvidia-uvm，但不用重启，继续将测试用例编译完后再查看）

查看版本

cat /usr/local/cuda/version.txt

如果出现其他问题，参考官网：https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html#ubuntu-installation

测试cuda是否安装成功
进入测试用例安装路径
编译

make

（大概等几分钟编译完成）
进入此目录下的bin/x86_64/linux/release
如：cd /usr/local/cuda/NVIDIA_CUDA-10.0_Samples/

执行

./deviceQuery

最后出现Result=PASS则成功
最后再检查一下系统和CUDA-Capable device的连接情况

./bandwidthTest

安装cuDNN

dpkg -i libcudnn*

测试：

cd /usr/src/cudnn_samples_v7/mnistCUDNN
make clean && make ./mnistCUDNN

g++: No such file or directory
解决：

apt-get remove g++
apt-get install g++

安装Anaconda

下载：https://repo.continuum.io/archive/

官方安装文档：https://docs.anaconda.com/anaconda/install/linux/

执行脚本
同意协议、安装路径等
最后

source /bin/activate  
source ~/.bashrc

验证安装成功
到安装的用户下，执行python，出现Anaconda字样就ok
为方便prod用户使用可以使用prod用户安装

source /data/prod/anaconda2/bin/activate
source ~/.bashrc

GPU-server驱动以及相关环境安装

Python相关栏目本月热门文章