- 【参考自:】https://docs.determined.ai/latest/sysadmin-deploy-on-prem/index.html
https://docs.determined.ai/latest/sysadmin-deploy-on-prem/requirements.html
【docker 安装】按照下面链接步骤:
https://docs.determined.ai/latest/sysadmin-deploy-on-prem/requirements.html#install-docker
https://docs.determined.ai/latest/sysadmin-deploy-on-prem/docker.html
1、集群所有集群按照docker 安装步骤安装完成后并且确保集群每台机器的nvidia container Toolkit 都按照预期工作。
2、拉取 PostgreSQL 的官方 Docker 镜像。建议使用下面列出的版本。
docker pull postgres:10
3、拉取determined ai 容器
在这些服务将运行的每台机器上为 master 或 agent 拉取 Docker 镜像。在集群中的主节点运行一个主容器,在从节点机器上运行代理容器。一台机器可以同时承载主容器和代理容器。运行以下命令,替换VERSION为有效的确定版本,例如当前版本 0.17.2:
docker pull determinedai/determined-master:0.17.2 docker pull determinedai/determined-agent:0.17.2【启动主节点容器】
启动主节点的容器需要配置默认的master.yaml 配置文件,可用的配置参数可用从这个链接https://docs.determined.ai/latest/sysadmin-basics/cluster-config.html#master-configuration获取。
我们可以使用官网上给定的默认配置值:https://raw.githubusercontent.com/determined-ai/determined/master/master/packaging/master.yaml
根据需要修改配置。
在主节点机器上输入:
det deploy local master-up
在从节点机器上输入
det deploy local agent-up 主节点机器ip
主节点机器查看:
masterip:8080
wget https://docs.determined.ai/latest/_downloads/61c6df286ba829cb9730a0407275ce50/mnist_pytorch.tgz tar xzvf mnist_pytorch.tgz cd mnist_pytorch/ det experiment create const.yaml
(注意这里如果没有使用科学上网的话可能会遇到pip 超时的问题,参考下面自定义docker 镜像将image更新为自己的镜像)
如果系统的cuda 版本与默认的11.1不符合可以指定使用的docker 镜像
vim const.yaml
在最后追加指定的image:
environment:
image: determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2
可用的docker image如下:
determinedai/environments:cuda-11.1-pytorch-1.9-lightning-1.3-tf-2.4-gpu-0.17.2 (默认) determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2 determinedai/environments:cuda-10.1-pytorch-1.4-tf-2.2-gpu-067db2b determinedai/environments:cuda-10.0-pytorch-1.4-tf-1.15-gpu-067db2b determinedai/environments:cuda-11.2-tf-2.5-gpu-0.17.2 determinedai/environments:cuda-11.2-tf-2.6-gpu-0.17.2 determinedai/environments:py-3.8-pytorch-1.9-lightning-1.3-tf-2.4-cpu-0.17.2 determinedai/environments:py-3.7-pytorch-1.7-tf-1.15-cpu-0.17.2 determinedai/environments:py-3.8-tf-2.5-cpu-0.17.2 determinedai/environments:py-3.8-tf-2.6-cpu-0.17.2【自定义docker 镜像】:
进入目前的镜像:
docker run -it --name custom_determinedai determinedai/environments:cuda-10.2-pytorch-1.7-tf-1.15-gpu-0.17.2修改镜像的时区、pip源等:
查看系统版本:
cat /etc/issue
更新ubuntu源为国内源这一步可以网上搜索相关教程:
如果没有代理科学上午且不需要google-cloud相关服务可以将下面文件删除以免apt-get update 时报错。
rm -f /etc/apt/sources.list.d/google-cloud-sdk.list
设置时区:
apt install -y tzdata
选择时区
修改pip源
pip3 config set global.index-url http://mirrors.aliyun.com/pypi/simple pip3 config set install.trusted-host mirrors.aliyun.com apt-get install systemd
提交镜像:
docker login # 登录docker hub docker ps -a #查看docker 修改后的容器hashid docker commit -m "modify time zone and pip source sys source cn" -a yourname 容器hashid # 运行后会出现image_id: docker tag image_id your_docker_user_name/your_docker_repositories_name:your_version_name docker push your_docker_user_name/your_docker_repositories_name:your_version_name



